Smart-Di

Server side OCR

La función OCR del lado del servidor Smartker puede proporcionar OCR (reconocimiento óptico de caracteres) para documentos PDF y TIFF que se encuentran en la biblioteca Smartker para que se puedan indexar y buscar. El mecanismo de OCR se encuentra en el servidor Smartker que usa una cola para procesar los documentos. Una vez que el mecanismo completa los procesos de OCR del documento, el documento se registra como una nueva versión que contiene una capa de texto que permite que el documento sea indexado y buscado dentro del sistema de gestión de documentos.

Los criterios para agregar un documento a la cola de procesamiento de OCR son:

* El documento debe tener un formato de “Documento electrónico”. No se procesarán registros electrónicos y documentos fuera de línea.

* Solo se procesan documentos de tipo PDF y TIF / TIFF. Las imágenes TIFF se convierten en documentos PDF con capacidad de búsqueda.

* Solo se puede procesar la última versión de los documentos. Esto se debe a que se crea una nueva versión una vez que el documento se ha sometido a OCR. El propietario del documento original sigue siendo el propietario de la nueva versión de OCR.

 

Sistema de gestión de documentos

OCR Engine La capa de texto resultante depende de la calidad del documento que se está realizando con el OCR. Por lo tanto, para garantizar la precisión de la capa de texto resultante, la calidad de los documentos debe ser razonablemente alta. Los escaneos de menor calidad serán difíciles de realizar con OCR, por lo que se deben realizar controles de calidad en estos documentos. El motor de OCR no puede detectar si una imagen está rotada, así que asegúrese de que sus documentos se puedan leer de derecha a izquierda y que el texto esté orientado horizontalmente.

Los documentos procesados por el motor de OCR se pueden comprimir para reducir el espacio del repositorio. La función de compresión de imágenes / PDF debe tener una licencia de Smartker. La compresión de documentos consta de varias técnicas. Los administradores del sistema pueden decidir qué técnica debe habilitarse o deshabilitarse para mantener el nivel requerido de optimización de documentos. Consulte Opciones de compresión de imagen / PDF para conocer la configuración.

El OCR del lado del servidor es una función opcional que se controla en la licencia Smartker. Para adquirir la función OCR del lado del servidor, póngase en contacto con sales@Smartker.com.

Si un documento pasa por el proceso de OCR del lado del servidor, se genera una nueva versión del documento. Esta nueva versión no se asociará con ningún flujo de trabajo que se haya producido en la versión anterior y, por lo tanto, perderá sus estados de revisión y aprobación. La versión recién generada deberá volver a pasar por el proceso de flujo de trabajo si es necesario mantener esos estados entre versiones.

 

Habilitación de OCR del lado del servidor

El OCR del lado del servidor puede ser un mecanismo que consume mucho tiempo; por lo tanto, los documentos se agregan a una cola para ser procesados. Todos los documentos nuevos, las nuevas versiones, agregados manualmente o mediante un mecanismo de importación automático (como carpetas supervisadas o importaciones administradas) se agregan automáticamente a la cola. Los documentos del repositorio existentes se pueden agregar manualmente a la cola.

Puede aplicar la prioridad para los documentos o versiones recién agregados para que tengan una prioridad más alta en la cola a través de una configuración. Se procesarán antes que cualquier documento existente en la cola. Si la configuración no se aplica, los documentos se toman de la cola en el orden en que se agregan sin tener en cuenta la prioridad.

Para la opción «Agregar documentos existentes a la cola de OCR», se utiliza un ajuste de configuración «OcrTotalOfExistingDocuments» para la cola de OCR. Primero, Smartker procesa cualquier documento o versión más reciente, luego mira la cola. Si la cola es grande porque también necesita procesar una gran cantidad de documentos existentes, esto puede afectar el rendimiento del sistema.

Ocr Total Of Existing Documents puede ayudar a reducir estos efectos. El valor predeterminado es 1,000,000 pero se puede ajustar en el archivo web.config ubicado en C: \ Archivos de programa \ Smartker Systems \ Application Server \ LibraryManager. Con una mayor cantidad de documentos en la cola, se recomienda que:

Realizar operación fuera del horario laboral.

Amplíe la configuración de WebServiceCallTimeoutSec para WebClient para evitar el tiempo de espera en el lado del cliente. No es necesario, independientemente del tiempo de espera en el lado del cliente, la operación continuará en el lado del servidor.