Hay muchas opciones para construir una platafoma. Se puede comprar un kit, construir un diseño ya establecido y probado por otras prsonas, o forjar uno propio y hacer algo completamente nuevo.
Hay una gran variedad de cámaras con las que se puede digitalizar. Si estás pensando utilizar Pi Scan para controlar tus cámaras, entonces deberías usar cámaras Canon PowerShot ELPH 160. Pero si estás utilizando otra configuración, acá hay algunas líneas generales para seleccionar una cámara.
Seleccionar la cámara adecuada es muy importante. Tenemos años y años de debate en este tema. No hay pregunta que se repita con más frecuencia, así que nadie pensó en este tema más que la comunidad de escáneres de libros "Do It Yourself". Y tenemos un proceso de tres pasos para resolver este problema.
A. Necesitás medir los libros que querés digitalizar. El objetivo es encontrar aquel que tenga el tamaño más grande en promedio (no hay que seleccionar los valores más grandes y atípicos). Por ejemplo, la mayoría de los libros de texto tienen alrededor de 9 x 11 pulgadas (22.86cm x 27.94cm).
B. Ahora, multiplicá ese tamaño por los PPP (pixeles por pulgada, o puntos por pulgada) que pretendés capturar. 300 es un mínimo seguro, ya que no se puede fallar si se va más allá de eso. Así que en nuestro ejemplo, sería: 9*300=2700. 11*300=3300. Necesitamos una iamgen que sea por lo menos de 2700x3300 = 8910000 píxeles, o sea, alrededor de 9 megapíxeles. Claro, eso es si utilizaras cada píxel perfectamente para capturar cada parte de la página, algo que NUNCA sucede. Por eso, para estar seguros, conviene agregar un 20-30% adicional para reemplazar los píxeles perdidos. En este caso, eso hace que 12 megapíxeles sea el mínimo para obtener una captura de al menos 300PPP (o DPI).
Si solamente vas a digitalizar un libro, o si estás digitalizando un libro que sólo contiene información (opuesto al objetivo de capturar la apariencia física del libro), no se necesitan capturas tan buenas. Si la iluminación cambia, o las configuraciones de la cámara varían de captura a captura, aún vas a obtener algún tipo de resultado utilizable. Sin embargo, cuanto más perfecta necesites que sea la captura, y cuantas más páginas necesites capturar, más control vas a necesitar. Asumiendo entonces que querés hacer un buen trabajo y te importa más que el texto crudo en cada página, vas a necesitar una cámara que te permita controlar lo siguiente:
La mayoría de las DSLRs permiten todo este tipo de control; para las cámaras compactas o de bolsillo, sólo las cámaras Canon Powershot son capaces de correr CHDK, que te da control sobre todos estos parámetros. Para ver si una cámara es capaz o no de correr CHDK, se puede chequear en este listado.
Un factor más a considerar: idealmente querés hacer correr estas cámaras con un adaptador AC (a la corriente eléctrica) en vez de con baterías. Tendrías que chequear previamente la disponbilidad de estos accesorios, o la posibilidad de reemplazarlos con un accesorio que puedas hacer vos mismo.
Si tenés un buen presupuesto, simplemente comprá cámaras DSLR y utilizá esas. Comprá la resolución más alta que puedas conseguir, y probá los distintos tipos de lentes que vienen con el cuerpo de la cámara, como punto de partida (generalmente sólo cuestan $50-100 USD más sobre el precio del cuerpo de la cámara y funcionan razonablemente bien.
Si estás con un presupuesto ajustado, las ya mencionadas cámaras Canon compactas o de bolsillo pueden ser compradas por presupuestos como $75 USD cada una, y, con CHDK, pueden producir imágenes de alta calidad. Son por lejos el mejor retorno de la inversión -que es sobre lo que trata toda esta movida de los escáneres de libros "do it yourself".
La mayoría de las cámaras compactas y económias no tienen una interfaz de software. Sólo pueden ser controladas manualmente o con un disparador mecánico. Pero un grupo de voluntarios ha desarrollado software que permite que las cámaras compactas de Canon sean controladas y configuradas de manera remota. Este software se llama CHDK (Canon Hack Development Kit).
El CHDK se instala en una tarjeta SD, que luego se inserta en la cámara. Cuando la cámara se inicia, CHDK ya está corriendo. Dado que el CHDK no hace cambios permanentes a la cámara, siempre se puede remover la tarjeta SD que tiene el CHDK instalado para correr la cámara normalmente.
El CHDK es un pre-requisito esencial para los controladores de software que se listan más abajo. Los controladores corren en una PC o en una Raspberry Pi y se comunican con el CHDK que está corriendo en las cámaras a través de los puertos USB. CHDK provee muchas capacidades mejoradas, incluyendo la capacidad de controlar la cámara vía USB, capturar fotografías, y luego transferir las imágenes resultante vía USB al controlador.
Como CHDK es tan útil y no hay ningún equivalente a CHDK para otro tipo de cámaras compactas, de bolsillo o de "apunta y dispara", la mayoría de los usuarios en el foro utilizan cámaras Canon en sus plataformas. Si utilizás otro tipo de cámaras compactas, la única opción de control es algún tipo de gatillo mecánico o manual.
La primera tarea para digitalizar libros es capturar una imagen de cada página, y luego ubicar esas imágenes en un lugar conveniente. Hay varias maneras de ejecutar esta tarea.
Pi Scan es un dispositivo de digitalización que corre en una Raspberry Pi 2 (o modelo B). Soporta las Canon PowerShot A2500 y las Canon PowerShot ELPH 160 (testeado; puede soportar otras, pero es a tu propio riesgo). Se conectan las cámaras en la Raspberry junto con un monitor, mouse, teclado (opcional), y un dispositivo de almacenamiento adicional (puede ser una tarjeta SD o un disco externo). Configura y dispara las dos cámaras, guardando las imágenes en el dispositivo de almacenamiento adicional. Una vez que la digitalización está terminada, el dipositivo de almacenamiento tendrá una carpeta llena de imágenes digitalizadas.
Spreads también corre sobre una Raspberry Pi, y funciona también en varias distribuciones de Linux. Trabaja con muchas cámaras compatibles con CHDK. Spreads se controla a través de la red con una interfaz web. Configura y controla las cámaras, y las guarda en "flujos de trabajo". Cuando un flujo de trabajo está completo, se puede descargar un archivo comprimido con las imágenes, o guardarlas en un dispositivo de almacenamiento externo.
Si tenés una computadora con Windows, se puede correr el script de TwoCamControl directamente en la computadora. Funciona con muchas cámaras compatibles con CHDK. Esto significa que no es necesario comprar ningún hardware adicional o preocuparse por interactuar con él. Alcanza con especificar un directorio para guardar las imágenes.
Si ninguna de las opciones de software funcionan, aún hay esperanzas de una solución ergonómica. Simplemente se necesita una forma de replicar un dedo presionando contra el botón de disparo de la cámara. La forma más común de hacer esto es re-utilizar los sistemas de freno de las bicicletas. Los frenos de las bicicletas funciona a través de presión neumática. Cuando se aprieta la palanca, esto incrementa la presión en un tubo. Esta presión puede ser utilizada para empujar un pistón posicionado directamente sobre el botón de disparo de la cámara.
Luego de capturar las imágenes utilizando un disparador mecánico, todavía se necesita copiar las imágenes de la cámara a la computadora para post-procesarlas. Si es posible, lo mejor es utilizar un cable de datos para hacer esto. De lo contrario será necesario desmontar las cámaras de la plataforma para acceder a las tarjetas SD que están dentro de la cámara.
Cuando todo lo demás falla, se pueden disparar las cámaras a mano. Fueron diseñadas para operar de este modo. Pero hacer esto cientos o miles de veces puede ser doloroso. Es difícil diseñar una plataforma que permita una operación ergonómica para disparar las cámaras manualmente. Y aún peor, al tocar la cámara para hacer el disparo, se introduce una vibración en el sistema justo en el momento en que se quiere tomar la fotografía.
Luego de la captura, el resultado será una carpeta llena de imágenes. Convertir esas imágenes en un libro electrónico se llama 'post-proceso'. Los pasos que efectivamente hay que tomar para esto depende de las necesidades específicas de cada uno. Alguna gente quiere comprimir todo cuanto más sea posible, y extraer el texto del libro utilizando OCR (reconocimiento óptico de caracteres). Otros simplemente quieren cortar cada imagen de la página y combinarlas en un PDF. Hay un manual (en inglés) que tiene varias secciones que describen este proceso, llamado Enlightenment. También hay algunas herramientas de software que permiten realizar esas tareas. Aquí hay algunas:
Una herramienta con todas las aplicaciones que puede hacer distintos tipos de manipulación de las imágenes de manera masiva, incluyendo rotación de imágenes, corte sobre contenido, alineación, corrección de las deformaciones, y binarización.
Una herramienta de post-proceso que permite rotar, cortar, corregir las deformaciones, y más. Está orientada sobre todo a usuarios más hábiles.
Abbyy Finereader, Adobe Acrobat, y Omnipage son todas alternativas pagas (y privativas). En ese caso, es necesario revisar sus manuales para saber si se ajustan a tus necesidades de digitalización.