Teoria generale dell'OCR: Verso OCR-2.0 tramite un Modello Unificato End-to-end
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
September 3, 2024
Autori: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI
Abstract
I sistemi OCR tradizionali (OCR-1.0) stanno sempre più faticando a soddisfare le esigenze delle persone a causa della crescente domanda di elaborazione intelligente dei caratteri ottici artificiali. In questo articolo, ci riferiamo collettivamente a tutti i segnali ottici artificiali (ad esempio testi semplici, formule matematiche/molecolari, tabelle, grafici, spartiti musicali e persino forme geometriche) come "caratteri" e proponiamo la Teoria OCR Generale insieme a un eccellente modello, chiamato GOT, per favorire l'avvento dell'OCR-2.0. Il GOT, con 580M parametri, è un modello unificato, elegante e end-to-end, composto da un encoder ad alta compressione e un decoder con contesti lunghi. Come modello OCR-2.0, il GOT può gestire tutti i suddetti "caratteri" in vari compiti OCR. Sul lato di input, il modello supporta immagini di stile scena e documento in stili a fette e intere pagine. Sul lato di output, il GOT può generare risultati semplici o formattati (markdown/tikz/smiles/kern) tramite un prompt facile. Inoltre, il modello gode di funzionalità OCR interattive, ovvero il riconoscimento a livello di regione guidato da coordinate o colori. Inoltre, adattiamo anche tecnologie di risoluzione dinamica e OCR multi-pagina al GOT per una maggiore praticità. Negli esperimenti, forniamo risultati sufficienti per dimostrare la superiorità del nostro modello.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's
usage due to the growing demand for intelligent processing of man-made optical
characters. In this paper, we collectively refer to all artificial optical
signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet
music, and even geometric shapes) as "characters" and propose the General OCR
Theory along with an excellent model, namely GOT, to promote the arrival of
OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end
model, consisting of a high-compression encoder and a long-contexts decoder. As
an OCR-2.0 model, GOT can handle all the above "characters" under various OCR
tasks. On the input side, the model supports commonly used scene- and
document-style images in slice and whole-page styles. On the output side, GOT
can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy
prompt. Besides, the model enjoys interactive OCR features, i.e., region-level
recognition guided by coordinates or colors. Furthermore, we also adapt dynamic
resolution and multi-page OCR technologies to GOT for better practicality. In
experiments, we provide sufficient results to prove the superiority of our
model.