ChatPaper.aiChatPaper

OCRVerse: Auf dem Weg zu ganzheitlicher OCR in End-to-End-Vision-Sprach-Modellen

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

January 29, 2026
papers.authors: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI

papers.abstract

Die Entwicklung großer visuell-sprachlicher Modelle treibt die Nachfrage nach Verwaltung und Anwendung massiver multimodaler Daten, wodurch OCR-Technologie, die Informationen aus visuellen Bildern extrahiert, zunehmend an Bedeutung gewinnt. Allerdings konzentrieren sich bestehende OCR-Methoden primär auf die Erkennung von Textelementen aus Bildern oder gescannten Dokumenten (textzentrierte OCR) und vernachlässigen die Identifikation visueller Elemente aus visuell informationsdichten Bildquellen (visuell-zentrierte OCR), wie Diagramme, Webseiten und wissenschaftliche Grafiken. In der Realität sind diese visuell informationsdichten Bilder im Internet weit verbreitet und besitzen bedeutenden praktischen Anwendungswert, beispielsweise in der Datenvisualisierung und Webseitenanalyse. In diesem technischen Bericht stellen wir OCRVerse vor, die erste ganzheitliche OCR-Methode in End-to-End-Manier, die eine Vereinheitlichung von textzentrierter und visuell-zentrierter OCR ermöglicht. Zu diesem Zweck haben wir eine umfassende Datenverarbeitung entwickelt, die ein breites Spektrum textzentrierter Dokumente wie Zeitungen, Zeitschriften und Bücher sowie visuell-zentrierter Render-Composites, einschließlich Diagrammen, Webseiten und wissenschaftlichen Grafiken, abdeckt. Darüber hinaus schlagen wir eine zweistufige SFT-RL-Multidomänen-Trainingsmethode für OCRVerse vor. SFT mischt direkt domänenübergreifende Daten zum Training und Aufbau von initialem Domänenwissen, während RL sich auf die Gestaltung personalisierter Belohnungsstrategien für die Charakteristiken jeder Domäne konzentriert. Insbesondere da verschiedene Domänen unterschiedliche Ausgabeformate und erwartete Ergebnisse erfordern, bieten wir im RL-Stadium ausreichend Flexibilität, um maßgeschneiderte Belohnungssignale für jede Domäne zu konfigurieren, wodurch domänenübergreifende Fusion verbessert und Datenkonflikte vermieden werden. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von OCRVerse, das wettbewerbsfähige Ergebnisse über textzentrierte und visuell-zentrierte Datentypen hinweg erzielt und sogar mit großen Open-Source- und Closed-Source-Modellen vergleichbar ist.
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.
PDF423January 31, 2026