Teoría general de OCR: Hacia OCR-2.0 a través de un Modelo Unificado de Extremo a ExtremoGeneral OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
Los sistemas tradicionales de OCR (OCR-1.0) son cada vez más incapaces de satisfacer las necesidades de las personas debido a la creciente demanda de procesamiento inteligente de caracteres ópticos artificiales. En este documento, nos referimos colectivamente a todas las señales ópticas artificiales (por ejemplo, textos simples, fórmulas matemáticas/moleculares, tablas, gráficos, partituras e incluso formas geométricas) como "caracteres" y proponemos la Teoría General de OCR junto con un excelente modelo, denominado GOT, para promover la llegada de OCR-2.0. El GOT, con 580 millones de parámetros, es un modelo unificado, elegante y de extremo a extremo, que consta de un codificador de alta compresión y un decodificador de contextos largos. Como modelo OCR-2.0, el GOT puede manejar todos los "caracteres" mencionados en diversas tareas de OCR. En el lado de entrada, el modelo admite imágenes de escena y de documento en estilos de corte y de página completa comúnmente utilizados. En el lado de salida, el GOT puede generar resultados simples o formateados (markdown/tikz/smiles/kern) a través de un comando sencillo. Además, el modelo cuenta con funciones interactivas de OCR, es decir, reconocimiento a nivel de región guiado por coordenadas o colores. Además, también adaptamos tecnologías de resolución dinámica y OCR de varias páginas al GOT para una mejor practicidad. En experimentos, proporcionamos resultados suficientes para demostrar la superioridad de nuestro modelo.