ChatPaper.aiChatPaper

Algemene OCR-theorie: Naar OCR-2.0 via een geïntegreerd end-to-end model

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

September 3, 2024
Auteurs: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI

Samenvatting

Traditionele OCR-systemen (OCR-1.0) zijn steeds minder in staat om aan het gebruik van mensen te voldoen vanwege de groeiende vraag naar intelligente verwerking van door mensen gemaakte optische tekens. In dit artikel verwijzen we collectief naar alle kunstmatige optische signalen (bijvoorbeeld platte tekst, wiskundige/moleculaire formules, tabellen, grafieken, bladmuziek en zelfs geometrische vormen) als "tekens" en stellen we de Algemene OCR-theorie voor, samen met een uitstekend model, namelijk GOT, om de komst van OCR-2.0 te bevorderen. De GOT, met 580M parameters, is een uniform, elegant en end-to-end model, bestaande uit een encoder met hoge compressie en een decoder met lange contexten. Als een OCR-2.0-model kan GOT alle bovengenoemde "tekens" verwerken onder verschillende OCR-taken. Aan de invoerkant ondersteunt het model veelgebruikte scène- en documentstijlafbeeldingen in slice- en hele-pagina-stijlen. Aan de uitvoerkant kan GOT eenvoudige of opgemaakte resultaten (markdown/tikz/smiles/kern) genereren via een eenvoudige prompt. Daarnaast beschikt het model over interactieve OCR-functies, zoals herkenning op regioniveau geleid door coördinaten of kleuren. Verder passen we ook dynamische resolutie en OCR-technologie voor meerdere pagina's aan GOT aan voor een betere praktische bruikbaarheid. In experimenten leveren we voldoende resultaten om de superioriteit van ons model aan te tonen.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.

Summary

AI-Generated Summary

PDF859November 16, 2024