ChatPaper.aiChatPaper

Théorie générale de la ROC : Vers la ROC-2.0 via un modèle unifié de bout en bout

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

September 3, 2024
Auteurs: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI

Résumé

Les systèmes OCR traditionnels (OCR-1.0) sont de plus en plus incapables de répondre aux besoins des utilisateurs en raison de la demande croissante de traitement intelligent des caractères optiques artificiels. Dans cet article, nous désignons collectivement tous les signaux optiques artificiels (par exemple, textes simples, formules mathématiques/moléculaires, tableaux, graphiques, partitions musicales, voire formes géométriques) sous le terme de "caractères" et proposons la Théorie OCR Générale ainsi qu'un excellent modèle, nommé GOT, pour promouvoir l'avènement de l'OCR-2.0. Le GOT, avec 580 millions de paramètres, est un modèle unifié, élégant et de bout en bout, composé d'un encodeur à haute compression et d'un décodeur à longs contextes. En tant que modèle OCR-2.0, le GOT peut traiter tous les "caractères" mentionnés dans diverses tâches OCR. Du côté de l'entrée, le modèle prend en charge les images de scène et de document couramment utilisées sous forme de tranches ou de pages entières. Du côté de la sortie, le GOT peut générer des résultats simples ou formatés (markdown/tikz/smiles/kern) via une invite facile. De plus, le modèle bénéficie de fonctionnalités OCR interactives, c'est-à-dire une reconnaissance au niveau des régions guidée par des coordonnées ou des couleurs. En outre, nous adaptons également des technologies de résolution dynamique et de traitement multi-pages à GOT pour une meilleure praticité. Dans nos expériences, nous fournissons des résultats suffisants pour prouver la supériorité de notre modèle.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.

Summary

AI-Generated Summary

PDF859November 16, 2024