OCRVerse : Vers une OCR holistique dans les modèles de vision et de langage de bout en bout
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models
January 29, 2026
papers.authors: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI
papers.abstract
Le développement de grands modèles de vision et de langage stimule la demande pour la gestion et l'application de masses de données multimodales, rendant la technologie OCR, qui extrait l'information d'images visuelles, de plus en plus populaire. Cependant, les méthodes OCR existantes se concentrent principalement sur la reconnaissance d'éléments textuels à partir d'images ou de documents scannés (OCR centré texte), négligeant l'identification d'éléments visuels à partir de sources d'images denses en information visuelle (OCR centré vision), tels que les graphiques, les pages web et les tracés scientifiques. En réalité, ces images denses en information visuelle sont omniprésentes sur Internet et possèdent une valeur applicative significative dans le monde réel, comme pour la visualisation de données et l'analyse de pages web. Dans ce rapport technique, nous proposons OCRVerse, la première méthode OCR holistique de bout en bout permettant un OCR unifié centré texte et centré vision. Pour ce faire, nous avons construit une ingénierie de données exhaustive couvrant un large éventail de documents centrés texte, tels que journaux, magazines et livres, ainsi que des composites rendus centrés vision, incluant graphiques, pages web et tracés scientifiques. De plus, nous proposons une méthode d'entraînement multi-domaine SFT-RL en deux étapes pour OCRVerse. Le SFT mélange directement des données interdomaines pour entraîner et établir une connaissance initiale des domaines, tandis que le RL se concentre sur la conception de stratégies de récompense personnalisées selon les caractéristiques de chaque domaine. Spécifiquement, puisque différents domaines requièrent divers formats de sortie et résultats attendus, nous offrons une flexibilité suffisante lors de l'étape RL pour personnaliser des signaux de récompense flexibles par domaine, améliorant ainsi la fusion interdomaine et évitant les conflits de données. Les résultats expérimentaux démontrent l'efficacité d'OCRVerse, atteignant des performances compétitives sur les types de données centrés texte et centrés vision, comparables même à des modèles open source et propriétaires à grande échelle.
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.