Guía de FreeOCR
Free OCR Guía     
 

Guia de FreeOCR

¿Qué es FreeOCR?

Basicamente FreeOCR es un programa OCR, es decir, un tipo de software que puede leer letras y caracteres de una imagen y producir una salida de texto. 

Algunas personas creen que un programa OCR simplemente convierte una imagen en un documento de Word. Aunque esto es parcialmente cierto, el proceso es  mucho más complicado y FreeOCR solo produce texto plano, el cual tendrá que corregir y formatear.

Los programas OCR engines nunca son precisos al 100% y, aunque algunas empresas indican una tasa del 99,8%, esto es solo cierto con documentos escaneados de muy ata calidad. En el mundo real los resultados son más bajos. FreeOCR tiene una tasa de acierto entre el 98-99%, lo que significa que de cada 100 caracteres reconocidos, hab´ra 1 o 2 errores, a menudo solucionables con el corrector ortográfico del procesador de textos.



Lo básico

Bien, si es de ese tipo de personas a los que no les gusta leer manuales, al menos siga estos 3 puntos para obtener unos buenos resultados con FreeOCR

1) Escaneé su originales a 300ppp en escala de grises. Resoluciones más altas, tales como 600dpi no producirán mejores resultados. FreeOCR necesita entre 200-300ppp y en escala de grises, que produce resultados ligeramente mejores que en blanco y negro o color.

2) Rote el documento – FreeOCR no puede leer imagen rotadas o boca abajo. Así que use los botones de rotado.

3) Seleccione el texto a reconocer dibujando un marco alrededor. A menudo, esto produce mejores resultados que intentando reconocer la página entera.


Para usar FreeOCR, debería conocer los conceptos básicos de los programas Windows y cómo copiar y pegar texto entre programas.

 

Descripción de los botones principales.

.

Scan - Le permite escanear una image de cualquier escaner Twain o Wia instalado. Recuerde fijar la resolución a 300 puntos por pulgada.

Open - Carga una imagen

Open PDF - Abre un fichero PDF. Solo se pueden reconocer PDFs provenientes de un escaneado, es decir, PDF que contengan imágenes.

OCR - Comienza el proceso de OCR.

OCR Language - Seleccione el lenguaje del documento, "eng" para inglés, "esp" para español.

Open Help - Abre esta guía es su formato original (inglés)


Botones de la imagen.

 

Navegación - Si tiene un PDF o Tiff con multiples páginas, use estas flechas para moverse entre ellas.

 


Redimensiona la imagen a la ventana.


Fija el ancho a la ventana.


 

Zoom.

 

 

Rotar.

 


Selección - le permite recortar una imagen o copiar la selección al portapapeles.

 

Botones del texto.


Borra el texto existente. Si no lo usa, los sucesivos reconocimientos se iran añadiendo a la ventana de texto. 

 

Graba el texto como un fichero .txt.


Quita los saltos de línea. Práctico para fijar el texto a una página. 

Copia texto - copia le contenido de la ventana de texto al portapapeles.


Exportar a Word. Manda el texto directamente a Microsoft Word.

Por supuesto puede seleccionar el texto que desee y copiarlo/pegarlo a cualquier aplicación de Windows.




Vamos a ver ahora con un ejemplo con reconocer texto de un documento.

Esta una página escaneada de un libro a 300ppp. Puede descargar la imagen de aquí si quiere probar por si mismo.

La imagen es bastante buena pero el escaneado ha dejado bordes muy sucios y, si simplemente pulsamos en el botón de OCR, obtendremos resultados como estos:

Q it ( { . »
Horizontally Layered Rock 223 { V
( (
= . i2,.
performed on cylinders with height (h) equal to twice the diameter; and hm, is the ’ ji ° ~ Q
( minimum height of a cubical specimen of pillar material such that an increase in - { p(
the specimen dimension will produce no further reduction in strength. In experi- ( Xi ( B
ments conducted by Bieniawski (1968), hm, was l m (Figure 3.2.1). Equation 7.4 (T § g
applies only for h 5 hm,. it g (
Using square pillars in a room and pillar panel presents a long roof span at the i ; j
intersections of rooms. If roof stability is a problem, then long pillars will be , ,
warranted. Roof stability generally controls the width of rooms, whereas pillar ( J
strength controls the relative separation of rooms. Roof stability can be critical in E , t
horizontally layered rock. , ·i (
. ‘ S .

No está mal, pero a causa de los bordes, el programa de OCR ha intentado leer texto en los bordes de la página a ha añadido algunos caracteres extraños. Para mejorarlo, marcamos justo el texto:

  Marcamos la zona mateniendo pulsado el botón izquierdo del ratón.

Ahora pulsamos el botón de OCR y solo se reconoce el texto seleccionado, obteniendo este resultado:

I-lorizontally Layered Rock 223
performed on cylinders with height (h) equal to twice the diameter; and hm, is the
minimum height of a cubical specimen of pillar material such that an increase in
the specimen dimension will produce no further reduction in strength. In experi-
ments conducted by Bieniawski (1968), hm, was l m (Figure 3.2.1). Equation 7.4
applies only for h 5 hm,.
Using square pillars in a room and pillar panel presents a long roof span at the
intersections of rooms. If roof stability is a problem, then long pillars will be
warranted. Roof stability generally controls the width of rooms, whereas pillar
strength controls the relative separation of rooms. Roof stability can be critical in
horizontally layered rock.

 

Ahora poder copiar el texto a cualquier programa o pulsar el icono de Word para editarlo directamente en dicho programa.