Teoria Geral de OCR: Rumo ao OCR-2.0 por meio de um Modelo Unificado de Ponta a Ponta
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
September 3, 2024
Autores: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI
Resumo
Os sistemas tradicionais de OCR (OCR-1.0) estão cada vez mais incapazes de atender às necessidades das pessoas devido à crescente demanda por processamento inteligente de caracteres ópticos artificiais. Neste artigo, referimo-nos coletivamente a todos os sinais ópticos artificiais (por exemplo, textos simples, fórmulas matemáticas/moleculares, tabelas, gráficos, partituras e até formas geométricas) como "caracteres" e propomos a Teoria Geral de OCR juntamente com um excelente modelo, denominado GOT, para promover a chegada do OCR-2.0. O GOT, com 580 milhões de parâmetros, é um modelo unificado, elegante e ponta a ponta, composto por um codificador de alta compressão e um decodificador de contextos longos. Como um modelo OCR-2.0, o GOT pode lidar com todos os "caracteres" mencionados em várias tarefas de OCR. Do lado de entrada, o modelo suporta imagens de cena e de documento em estilos de fatia e página inteira comumente utilizados. Do lado de saída, o GOT pode gerar resultados simples ou formatados (markdown/tikz/smiles/kern) por meio de um prompt fácil. Além disso, o modelo conta com recursos interativos de OCR, ou seja, reconhecimento em nível de região guiado por coordenadas ou cores. Além disso, adaptamos tecnologias de resolução dinâmica e OCR de várias páginas ao GOT para uma melhor praticidade. Nos experimentos, fornecemos resultados suficientes para comprovar a superioridade do nosso modelo.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's
usage due to the growing demand for intelligent processing of man-made optical
characters. In this paper, we collectively refer to all artificial optical
signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet
music, and even geometric shapes) as "characters" and propose the General OCR
Theory along with an excellent model, namely GOT, to promote the arrival of
OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end
model, consisting of a high-compression encoder and a long-contexts decoder. As
an OCR-2.0 model, GOT can handle all the above "characters" under various OCR
tasks. On the input side, the model supports commonly used scene- and
document-style images in slice and whole-page styles. On the output side, GOT
can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy
prompt. Besides, the model enjoys interactive OCR features, i.e., region-level
recognition guided by coordinates or colors. Furthermore, we also adapt dynamic
resolution and multi-page OCR technologies to GOT for better practicality. In
experiments, we provide sufficient results to prove the superiority of our
model.Summary
AI-Generated Summary