OCRVerse: Naar een holistische OCR in end-to-end visie-taalmodellen
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models
January 29, 2026
Auteurs: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI
Samenvatting
De ontwikkeling van grootschalige visueel-taalmodellen vergroot de vraag naar het beheren en toepassen van enorme hoeveelheden multimodale data, waardoor OCR-technologie (Optical Character Recognition) die informatie uit visuele beelden haalt, steeds populairder wordt. Bestaande OCR-methoden richten zich echter voornamelijk op het herkennen van tekstelementen uit afbeeldingen of gescande documenten (tekstgerichte OCR), en verwaarlozen de identificatie van visuele elementen uit visueel informatie-dichte beeldbronnen (visiegerichte OCR), zoals grafieken, webpagina's en wetenschappelijke diagrammen. In werkelijkheid komen dergelijk visueel informatie-dichte afbeeldingen op grote schaal voor op internet en hebben ze aanzienlijke praktische toepassingswaarde, zoals bij datavisualisatie en webpagina-analyse. In dit technische rapport presenteren we OCRVerse, de eerste holistische OCR-methode in end-to-end vorm die een uniforme tekstgerichte en visiegerichte OCR mogelijk maakt. Hiertoe hebben we een uitgebreide data-engineering opgezet die een breed scala aan tekstgerichte documenten omvat, zoals kranten, tijdschriften en boeken, evenals visiegerichte weergegeven composieten, waaronder grafieken, webpagina's en wetenschappelijke diagrammen. Bovendien stellen we een tweefasen SFT-RL multi-domein trainingsmethode voor OCRVerse voor. SFT mengt direct cross-domein data om te trainen en initiële domeinkennis op te bouwen, terwijl RL zich richt op het ontwerpen van gepersonaliseerde beloningsstrategieën voor de kenmerken van elk domein. Omdat verschillende domeinen uiteenlopende uitvoerformaten en verwachte outputs vereisen, bieden we voldoende flexibiliteit in de RL-fase om flexibele beloningssignalen per domein aan te passen, waardoor cross-domein fusie verbetert en data-conflicten worden vermeden. Experimentele resultaten tonen de effectiviteit van OCRVerse aan, met competitieve prestaties across tekstgerichte en visiegerichte datatypes, die zelfs vergelijkbaar zijn met grootschalige open-source en closed-source modellen.
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.