La silla desde Concepción, Chile

Una alternativa independiente y diferente para publicar tus libros, con impresión digital y desde bajos tirajes al alcance del bolsillo de poetas y público en general.
Realizamos correcciones - comentarios literarios y la más amplia difusión vía web para tus obras.
EXPERIENCIA Y EXCELENCIA EN GESTION DE PROYECTOS EDITORIALES Y CULTURALES

LA SILLA PRODUCCIÓN ARTESANAL


EDICIONESLASILLA@GMAIL.COM

-EDICIÓN
-ASESORÍAS
-TALLERES DE LITERATURA

Ediciones LA SILLA

desde Concepción, Chile

Poema video Ingrid

jueves, 24 de julio de 2008

CONSEJOS Y TRUCOS PARA LA DIGITALIZACIÓN Y CORRECCIÓN DE TEXTOS


(GUÍA PASO A PASO CON FINE READER Y WORD)

PRESENTACIÓN:

Visto que continuamente hay gente que no está
familiarizada con la digitalización y corrección de textos, se me ha ocurrido
hacer un resumen paso a paso de las tareas que componen este proceso y de la
resolución de los problemas más comunes que se plantean. Para hacerlo más ameno
y refiero mis experiencias personales.

agradezco la ayuda que me ha brindado

El Trauko con sus oportunos consejos y a Elfowar por enseñarme el "split"
(separación) de las páginas en FR y su reacomodamiento.
Espero que les sea útil.



EQUIPAMIENTO CON QUE TRABAJO:

Scanner: HP 3c (scsi)
OCR: Fine Reader versión 6.0 Corporated Edition en inglés (en adelante, FR)
Word: Word 2000 en inglés (en adelante, Word)]


EL SCAN:

Escaneo a 300 dpi en la opción solo texto (nada de escala de grises ni rgb, ni
nada de nitidez especial) con un rango bastante claro para evitar sombras e
imperfecciones.
Escaneo de a 2 páginas a la vez. Según como pueda colocar el libro en la "cama"
del scanner lo pongo horizontal o vertical (pero prefiero el horizontal).
Escaneo todo el libro de un tirón. No empiezo ninguna otra tarea con el mismo
libro hasta terminar el scan. Comúnmente uso la opción de escanear múltiples
páginas de FR porque ya numera automáticamente los tiff. En opciones de escaneo
elijo "split dual pages" para separar las dos páginas y, si escaneo en vertical,
elijo que detecte automáticamente la dirección de la pagina (tengo cuidado de
poner la página de numeración inferior en el ángulo de inicio del escaneo de lo
contrario FR colocará la Pág. 4 antes que la 5, por ejemplo). A medida que voy
escaneando en las ventanas de FR verifico que la imagen venga clara y con la
menor cantidad de imperfecciones para ello corrijo los valores de luminosidad
del escaneo (nivel del umbral).
[A veces FR tiene dificultad para reconocer la orientación de las páginas o
sencillamente la máquina se vuelve muy lenta para esta opción en esos casos hago
lo siguiente: El Batch (lote) en que pongo las imágenes no es el definitivo:
cuando terminé de escanear y he rotado las imágenes hasta que las tengo todas
en horizontal. Entonces creo un nuevo batch o "lote" (el definitivo, con el
nombre definitivo). Entre las opciones de FR elijo que haga split de las
páginas. FR separa entonces todo en páginas individuales.]
CONTROL DE PAGINACIÓN (C1):
A medida que se escanean las páginas FR, en una ventana de la izquierda coloca
miniaturas (thumbnails) de la páginas escaneadas, con el número de página que le
ha correspondido, al pie de la misma.
Pues bien, al concluir el escaneo
HAGO COINCIDIR EL NUMERO DE LA PRIMERA PAGINA
CON EL NUMERO DE ESA PAGINA EN EL LIBRO Y HAGO QUE RENUMERE TODAS LAS PÁGINAS EN CONSECUENCIA. Y de esta forma verifico que a cada página se corresponda con el número de la miniatura correspondiente.

La razón es la siguiente: Hay que hacer control de que no se haya saltado
ninguna página durante el escaneo (o que alguna la haya escaneado, por
distracción, dos veces). Y se controla que todas ellas estén en el orden
correcto.

Truco: En realidad no es necesario controlar con este procedimiento todas las
páginas. Si uno controla una de cada diez o veinte y siempre halla
coincidencia, la posibilidad de error es casi nula. Y además, controlo siempre
las últimas 2 páginas. Si uno está muy apurado, controla la primera y la
última, y luego, algunas de las intermedias (si hay coincidencias probablemente
no existan problemas de paginación)

EL LAYOUT (ENCUADRE DEL TEXTO A RECONOCER):
Para hacer que el OCR reconozca el texto hay que señala en cada páginas las
áreas que debe leer. Esa marcación es el layout y debe hacerse en cada pagina
que se desea reconocer. Si una página no tiene el layout marcado NO SERÁ LEÍDA.
El procesamiento del layout puede hacerse automáticamente y para todas las
páginas; o señalar las áreas de reconocimiento manualmente.

CONTROL DEL LAYOUT (C2):
En el caso del procesamiento automático del layout, conviene (una vez que FR ha
definido el layout de cada página):
eliminar del mismo los números de página, y cabezales y pies de página (si los
hubiera).
eliminar todas otras imperfecciones que el FR hubiera entendido como dibujos o
textos.
corregir los recuadros cuando hubiera eliminado un texto o un título, o un
numero de capítulo por error.
Verificar el orden de los cuadros de texto a reconocer.
En el caso de realizar la marcación manualmente, conviene hacer una revisión del
orden de los recuadros a reconocer.

EL RECONOCIMIENTO ÓPTICO DE CARACTERES (OCR):
Antes de proceder al reconocimiento de todas las páginas hay que verificar:
el idioma de reconocimiento (generalmente, español)
Verificar en la "opciones" [Tools>Options>Formatting] que retenga "font & font
size" (características de fuente y tamaño) lo que permitirá conservar las
itálicas y negritas del texto y las diferencias de tamaño de títulos y
subtítulos.
Conviene también que corrija automáticamente los espacios antes y después de la
puntuación (chequear la casilla de esta opción).

Luego hacemos reconocer el texto.
Hasta donde sé FR trabaja de esta manera: 1) reconoce cada letra por su
contorno; 2) cuando se topa con un espacio mayor entre una letra y otra reconoce
las letras próximas como palabra; 3) en una segunda pasada compara esa palabra
contra un diccionario del idioma elegido, si la palabra aparece en su
diccionario la acepta como tal; si la palabra tiene alguna alteración (p. ej.
lee "opcion", busca en su diccionario y la palabra más próxima es "opción", su
algoritmo admite que puede ser un error de la imagen y escribe opción) escribe
la palabra como la considera correcta y señala la duda con una marca de color
(celeste); si la palabra no figura en su diccionario la escribe como reconoce
cada letra y la marca en color (celeste). FR tiene varios niveles de corrección.
Y, no lo he probado, pero creo que puede suspenderse la autocorrección.

CONTROL DE LAS DUDAS Y ERRORES DEL OCR (C3):
Una vez leído el texto FR deja marcas en color celeste de todas las dudas que ha
tenido. Hay que hacer un repaso pagina por página mirando las dudas que ha
marcado. La regla es esta: si FR marca con celeste pero nosotros no observamos
que haya ningún problema dejamos esa marcación tal como está, si en cambio
notamos que en lo señalado hay un error, lo corregimos cotejando con la imagen
ampliada que aparece en la ventana inferior. Muchos de estos errores no podrán
ser corregidos o detectados por Word así es que SE HACE NECESARIO realizar estas
correcciones aquí en FR (antes de salvar el texto para Word).
El texto así depurado ya ha cumplido con los controles 123 de modo que su
calificación sería [C123], donde C quiere decir "Control".
Tip: Cuando uno va a realiza este control conviene reacomodar las tres ventanas
de modo que la ventana del texto ampliado y la del texto leído por OCR tengan
mayor espacio. Usando el botón derecho del mouse se clickea en la ventana y se
especifica el zoom más conveniente para la imagen de texto que se tiene. Esta
revisión entonces lleva bastante menos tiempo pues se realiza más rápidamente.
Las ventanas de FR se pueden personalizar y acomodar para que cada tarea se más
fácil y controlada (pueden moverlas, reducirlas, ampliarlas, cerarlas o abrirlas
a gusto; vale la pena dedicarle un poco de tiempo a acomodarlas antes de la
tarea).

GUARDAR EL TEXTO RECONOCIDO:
FR da toda una serie de opciones para guardar el texto. Yo generalmente lo
guardo como html, sino como documento de word o como rtf.
Tip: Lo guardo como html cuando quiero tener en Word una marcación adicional
para saber donde estaban en el documento original los finales de página. Al
abrir el documento en el explorer, copiar y, luego, pegar en Word. Los fines de
página aparecen marcados por un gráfico pequeño que se puede usar como marcador
para ser removidos a medida que las páginas son ensambladas unas con otras.

CORRECCIÓN DEL TEXTO EN WORD (C4):
Antes de controlar automáticamente el texto con el corrector ortográfico de
Word, hago las siguientes reparaciones:

1) Corrijo los saltos de página en medio de un párrafo.

Truco: Los párrafos interrumpidos por el salto de página comúnmente no terminan
en punto sino en el sino al concluir una palabra (Si es al silabear una palabra
véase el punto siguiente). Por lo tanto para detectarlos rápidamente se realiza
una búsqueda (Editar > buscar [Edit>find]) de "cualquier letra" [any letter] +
salto de párrafo [paragraf mark] (^$^p) [pueden cortar y pegar esta orden en la
ventana de dialogo de "Edit > Find" (Editar > Buscar)]
ATENCIÓN: NO HAY QUE HACER EN ESOS CASOS REEMPLAZO AUTOMÁTICO PORQUE CAMBIARÍA
TAMBIÉN LA LETRA ("any letter" [=cualquier letra]) DE LA CONSIGNA. Una vez
ubicado el caso a corregir hay que detenerse y corregirlo manualmente
(Actualmente se trabaja en una macro para solucionar esto automáticamente).

También deben buscarse los casos de línea trunca como ,^p [=coma + salto de
párrafo ] o ;^p [=punto y coma + salto de párrafo ], :^p [dos puntos + salto de
párrafo ]. Y cambiar el ^p por 1 espacio. [Se trabaja en una macro para
solucionar este tema].


2) Corregir los saltos de página con corte de palabra.

Solución: los saltos de página con corte de palabra se pueden corregir
automáticamente buscando la secuencia "guión + marca de salto de párrafo " (-^p)
y reemplazándola por nada. Esto suprimirá todos los guiones y los fin de párrafo
dejando las palabras nuevamente unidas.

Búsqueda y restablecimiento de las notas a pie de página y otros aditamentos en
el interior del texto.

Solución: las notas a pie de página suelen ir numeradas o con una llamada o
asterisco. Basta con hacer una búsqueda de "any digit" [cualquier número o
dígito] o del signo que se utilice en el scan y restablecer nuevamente el link;
esto es: cortar el texto de la nota, ir al punto donde la nota debe ser
insertada, borrar la marca anterior, y seleccionar el comando "insert", luego
"footnote", aceptar, y en el espacio destinado a la nota al pie de página
"pegar" el texto cortado. Es lento pero no creo que se lo pueda automatizar más.

5) Corregir Títulos y subtítulos para restablecer su diferenciación y
jerarquización tipográfica.

No hay una solución automática. Hay que recorrer el texto y comprobarlos.
Convendría asignar un estilo a los títulos y otro a los subtítulos (un estilo
distinto del texto general y distinto de cualquier otro estilo usado).

6) Corrección de los errores ortográficos que a veces no son detectados por el
corrector automático:

a)Confusión del nexo coordinante "y" por "v"

Solución automática: cambiar todos los "(espacio) v (espacio)" por "(espacio) y
(espacio)" ya que en la sintaxis castellana "v" no se halla en ningún caso. De
todas formas este cambio automático conviene realizarlo cuando ya se hayan hecho
revisiones generales del texto.

b) Reemplazo de letras por dígitos, búsqueda de número de página que hayan
escapado al control de layout, y comprobación de dígitos en el documento:

Solución automática: una vez realizada la corrección ortográfica, realizar una
búsqueda de "any digit" [cualquier número o dígito]. Conviene hacer esta
comprobación porque hay veces en que el texto original tiene defectos que pueden
hacer que el OCR confunda por ejemplo "él" con "61" y el corrector automático no
lo detectaría.



CORRECCIÓN CON EL CORRECTOR DE WORD:

Con todo el texto seleccionado se escoge la opción "set lenguaje" [definir
lenguaje] y se indica el lenguaje del documento para que el corrector funcione
correctamente; en la exigencia de corrección (herramientas, opciones [=tools,
options]) se elige "exhaustiva". Y se realiza la corrección interactiva en word,
hasta que el programa indique que ésta ha terminado.


Truco:
Problema: Control de los nombres propios.
Solución: al usar la opción "ignore all" [omitir todos] de la ventana del
corrector hacemos que Word vaya construyendoun diccionario del que después no
queda ningún rastro salvo para ese documento y para la corrección que estamos
realizando en ese momento. Ese diccionario "momentáneo" es muy útil. Cuando
vemos un nombre bien escrito, y le damos "Ignore all" [omitir todos], no vuelve
a preguntarnos por él en todo el documento, pero atención, si vuelve a preguntar
por ese mismo nombre es porque no está igual (puede ser que algo esté mal en él:
o le falta alguna letra o le falta un acento o alguna letra a sido sustituida, o
ha sido partido por el silabeo y tiene un guión que no tenía cuando la aceptamos
la primera vez, y entonces tenemos la oportunidad de corregirlo).



Corrección manual por lectura del documento (C5):

Todavía los programas no son tan inteligentes como para comprender un documento
y detectar coherencia. Si los distintos correctores han detectado que una
combinación de letras corresponde a una palabra que figura en sus diccionarios,
sencillamente la dan por buena.
Si el problema está en el original impreso en papel (porque los problemas de
corrección han existido siempre y con alguna ediciones más que con otras, como
por ejemplo con las viejas "Nebulae") la máquina no podrá ayudarnos. En este
sentido es importante: ANTES DE PONERNOS A ESCANEAR UN LIBRO (cosa que implica
considerable trabajo si atendemos a que su corrección a conciencia lleva cierto
tiempo y esfuerzo) que usemos libros que hayamos leído y en los que recordemos
no haber hallado ningún fallo significativo de este tipo (como que le falten
páginas o cosas así) . No sea que nos encontremos, cuando ya habíamos hecho todo
el trabajo que alguien le había arrancado la última página o que un cuadernillo
estaba fallado o que ése era el primero de 2 tomos de la misma novela.
En cambio si ya lo habíamos leído y no había problemas y si cumplimos todos los
pasos de corrección arriba descriptos, creo bien podemos pasarnos este último
paso sin culpa.


NOMENCLATURA:

Para que el que reciba el documento sepa en que etapa de corrección o de control
se halla recomiendo siempre avisar entre corchetes el estado de control del
documento. P. ej: un [C12345] es un documento que ha pasado por todas las
etapas de control e incluso fue controlado por lectura directa, en cambió un
[C1234] todavía no ha recibido una supervisión por lectura directa.



RESPONSABILIDAD DEL CORRECTOR:

La labor de los ulteriores lectores es muy relativa:
- Si es que avisan si encuentran algún problema en el texto.
- Si el que recibe el aviso puede realizar los cambios.
- Que se pueda efectuar el cambio en todas las copias que existan del archivo
para evitar que esa copia defectuosa siga circulando (Cosa no imposible, pero sí
altísimamente improbable en los casos de detección pronta) Pero imposible
totalmente en la mayoría de los casos en que existen ciertas demoras y las copia
ya circulan en cds y por donde quién sabe dónde).


No hay comentarios.:

LANZAMIENTO DE LIBRO

CIC Colectivo La silla

Herramientas Dinamización Comunidades - Entornos Online

FEEDJIT Live Traffic Feed

Difusión Internacional

Proyecto Revista digital de literatura PERIFERIA

A los escritores de la región del Bío Bío, estamos recibiendo colaboraciones para este nuevo proyecto financiado por el Consejo del Libro y la Lectura.
Difundir la creación poética y narrativa de la región es nuestra misión.

mariacris1954@gmail.com
edicioneslasilla@gmail.com

Literatura-Informática-Producción de eventos


-Corrección estilística

Consiste en corregir en el texto (literario o no) los posibles errores, (ortotipográficos, gramaticales, semánticos) y también los fallos de redacción como tiempos verbales, repeticiones innecesarias, cacofonías, redundancias, frases confusas, etc. Con lo cual se conseguirá no sólo un texto correctamente escrito, si no además pulido, eficaz y profesional, listo para su edición. La corrección estilística se dará en forma de sugerencias en el caso de un texto literario, teniendo en cuenta las intenciones formales del autor.

-Corrección literaria

Éste análisis de textos literarios incluye la corrección estilística, y además la valoración del texto como obra literaria. Se estudiará y analizará el desarrollo de la historia, los personajes, el estilo narrativo, el ritmo, el tono, la estructura, la visión del lector frente a la obra, si es poesía: las imágenes, el estilo, la musicalidad, la coherencia del conjunto como un todo, los títulos, los recursos, etc. Siempre teniendo en cuenta la intencionalidad del autor.


Tiempo de entrega aproximado: 10-15 días

contacto:
edicioneslasilla@gmail.com

mariacris1954@gmail.com
María Cristina Ogalde
escritora-directora-editora de ediciones La silla, un proyecto creado el 26 de septiembre del 2003 junto a la escritora Ingrid Odgers, en Concepción-Chile.







Revista Digital de Literatura "Periferia"

If you have an apple and I have an apple and we exchange these apples then you and I will still each have one apple. But if you have an idea and I have an idea and we exchange these ideas, then each of us will have two ideas.


Si tienes una manzana y yo tengo una
manzana y las intercambiamos entonces
seguiremos teniendo una manzana cada
uno. Pero si tienes una idea y yo tengo
una idea e intercambiamos estas ideas,
entonces cada uno de nosotros tendrá
dos ideas.
George Bernard Shaw

Ingrid Odgers - Mª Cristina Ogalde

Ingrid Odgers - Mª Cristina Ogalde
Gestoras Culturales