miércoles, 31 de enero de 2007
EL SOFTWARE DEL ESCANNER

EN: EL MAÑANA DE MATAMOROS
SITE: http://www.elmananadigital.com
FECHA: 30/01/2007
AUTOR: Mario E. Nieto (El Mañana)

Sabemos que el escanner “fotocopia” el contenido de una página, trátese de texto, dibujos, fotos o una combinación de todos ellos. Normalmente el contenido pasa a un archivo de computadora donde es editado para los fines que perseguimos. Detrás de esta “pequeña” transferencia técnica hay un software que controla el proceso, veamos cual es.

La interface TWAIN (Technology Without An Interesting Name), cuya traducción literal sería tecnología sin un nombre interesante, se trata de una norma que se definió para que cualquier escanner pudiera ser usado por cualquier programa de una forma estandarizada e incluso con la misma interface para la adquisición de la imagen. Hoy en día se puede decir que todos los escanners normales utilizan este protocolo, con lo que los fabricantes sólo deben preocuparse de proporcionar el controlador TWAIN apropiado.

Dejando aparte las librerías DLL y otros temas técnicos, la parte que el usuario ve del estándar TWAIN es la interface de adquisición de imágenes, que consiste en el programa donde visualmente podemos controlar todos los parámetros del escaneado (resolución, número de colores, brillo...), además de poder definir el tamaño de la zona que queremos procesar.

El OCR

Se trata de una de las aplicaciones más comunes de los escanners. OCR son las siglas de Optical Character Recognition, reconocimiento óptico de caracteres, o con una descripción más sencilla: Cómo hacer para enseñar a leer a la computadora.

Cuando se escanea un texto no se escanean letras, palabras y frases, sino sencillamente los puntos que las forman, una especie de fotografía del texto. Evidentemente, esto puede ser útil para archivar textos, pero sería deseable que pudiéramos tomar toda esa información e incorporarla a nuestro procesador de texto no como una imagen, sino como texto editable. Para que esto ocurra se requiere que la computadora pueda leer como nosotros, es decir, que interprete las imágenes a caracteres editables. Bueno, pues eso hace el OCR: Es un programa que lee esas imágenes digitales y busca conjuntos de puntos que se asemejen a letras, a caracteres. Dependiendo de la calidad del programa OCR este podrá “entender” cierta cantidad de tipos de letra, llegando en algunos casos a interpretar la escritura manual, mantener el formato original (columnas, fotos entre el texto...) o a aplicar reglas gramaticales para aumentar la exactitud del proceso de reconocimiento. Para que el programa pueda realizar estas tareas con una cierta fiabilidad, sin confundir “t” con “1”, por ejemplo, la imagen que le proporcionamos debe cumplir unas ciertas características. Fundamentalmente debe tener una gran resolución, unos 300 ppp para textos con tipos de letra claros o 600 ppp si se trata de tipos de letra pequeños u originales de poca calidad como periódicos. Casi siempre bastará con una captura en blanco y negro (1 bit de color) o, cuando mucho, usando una escala de grises (8 bits).

Por cierto, ya se cuenta con mini escanners de texto, aparte de su diseño ergonómico para que se ajuste a la mano, estos dispositivos portátiles transfieren la información capturada directamente a la pantalla. Uno de estos productos es el Irislink, el cual se conecta a través de un puerto USB, y que permite escanner letras y números con sólo pasarlo por encima del documento, revista o libro. Este mini componente también escanea imágenes en escala de grises como logotipos o firmas.

Los escanners se han convertido en una parte importante de nuestro mundo tecnológico, casi todo aquello que en su momento fue tecleado, dibujado o impreso ahora debe ser digitalizado. Si no, “de qué otra forma podemos enviarlo por Internet? 30/01/2007

Tags: escanner, OCR

Comentarios