ChatPaper.aiChatPaper

Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 durch ein vereinheitlichtes End-to-End-Modell

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

September 3, 2024
Autoren: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI

Zusammenfassung

Traditionelle OCR-Systeme (OCR-1.0) können aufgrund der steigenden Nachfrage nach intelligenter Verarbeitung von künstlichen optischen Zeichen zunehmend nicht mehr den Bedürfnissen der Menschen gerecht werden. In diesem Artikel beziehen wir uns kollektiv auf alle künstlichen optischen Signale (z. B. Klartexte, mathematische/molekulare Formeln, Tabellen, Diagramme, Notenblätter und sogar geometrische Formen) als "Zeichen" und schlagen die Allgemeine OCR-Theorie zusammen mit einem herausragenden Modell namens GOT vor, um die Einführung von OCR-2.0 voranzutreiben. Der GOT, mit 580 Millionen Parametern, ist ein vereinheitlichtes, elegantes und End-to-End-Modell, bestehend aus einem hochkomprimierenden Encoder und einem Decoder mit langen Kontexten. Als ein OCR-2.0-Modell kann der GOT alle oben genannten "Zeichen" unter verschiedenen OCR-Aufgaben verarbeiten. Auf der Eingabeseite unterstützt das Modell üblicherweise verwendete Szenen- und Dokumentenbildstile in Schnitt- und Ganzseitenstilen. Auf der Ausgabeseite kann der GOT einfache oder formatierte Ergebnisse (Markdown/TikZ/Smiles/Kern) über eine einfache Eingabe generieren. Darüber hinaus verfügt das Modell über interaktive OCR-Funktionen, d. h. eine Erkennung auf Regionsebene, die durch Koordinaten oder Farben gesteuert wird. Darüber hinaus passen wir auch dynamische Auflösung und Mehrseiten-OCR-Technologien dem GOT an, um die Praktikabilität zu verbessern. In Experimenten liefern wir ausreichende Ergebnisse, um die Überlegenheit unseres Modells zu belegen.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.

Summary

AI-Generated Summary

PDF859November 16, 2024