Teoría general de OCR: Hacia OCR-2.0 a través de un Modelo Unificado de Extremo a Extremo
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
September 3, 2024
Autores: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI
Resumen
Los sistemas tradicionales de OCR (OCR-1.0) son cada vez más incapaces de satisfacer las necesidades de las personas debido a la creciente demanda de procesamiento inteligente de caracteres ópticos artificiales. En este documento, nos referimos colectivamente a todas las señales ópticas artificiales (por ejemplo, textos simples, fórmulas matemáticas/moleculares, tablas, gráficos, partituras e incluso formas geométricas) como "caracteres" y proponemos la Teoría General de OCR junto con un excelente modelo, denominado GOT, para promover la llegada de OCR-2.0. El GOT, con 580 millones de parámetros, es un modelo unificado, elegante y de extremo a extremo, que consta de un codificador de alta compresión y un decodificador de contextos largos. Como modelo OCR-2.0, el GOT puede manejar todos los "caracteres" mencionados en diversas tareas de OCR. En el lado de entrada, el modelo admite imágenes de escena y de documento en estilos de corte y de página completa comúnmente utilizados. En el lado de salida, el GOT puede generar resultados simples o formateados (markdown/tikz/smiles/kern) a través de un comando sencillo. Además, el modelo cuenta con funciones interactivas de OCR, es decir, reconocimiento a nivel de región guiado por coordenadas o colores. Además, también adaptamos tecnologías de resolución dinámica y OCR de varias páginas al GOT para una mejor practicidad. En experimentos, proporcionamos resultados suficientes para demostrar la superioridad de nuestro modelo.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's
usage due to the growing demand for intelligent processing of man-made optical
characters. In this paper, we collectively refer to all artificial optical
signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet
music, and even geometric shapes) as "characters" and propose the General OCR
Theory along with an excellent model, namely GOT, to promote the arrival of
OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end
model, consisting of a high-compression encoder and a long-contexts decoder. As
an OCR-2.0 model, GOT can handle all the above "characters" under various OCR
tasks. On the input side, the model supports commonly used scene- and
document-style images in slice and whole-page styles. On the output side, GOT
can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy
prompt. Besides, the model enjoys interactive OCR features, i.e., region-level
recognition guided by coordinates or colors. Furthermore, we also adapt dynamic
resolution and multi-page OCR technologies to GOT for better practicality. In
experiments, we provide sufficient results to prove the superiority of our
model.Summary
AI-Generated Summary