ChatPaper.aiChatPaper

OCRVerse: Hacia un OCR integral en modelos de visión y lenguaje de extremo a extremo

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

January 29, 2026
Autores: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI

Resumen

El desarrollo de grandes modelos de lenguaje visual impulsa la demanda de gestionar y aplicar cantidades masivas de datos multimodales, haciendo que la tecnología OCR, que extrae información de imágenes visuales, sea cada vez más popular. Sin embargo, los métodos OCR existentes se centran principalmente en reconocer elementos textuales a partir de imágenes o documentos escaneados (OCR centrado en texto), descuidando la identificación de elementos visuales a partir de fuentes de imágenes visualmente ricas en información (OCR centrado en visión), como gráficos, páginas web y diagramas científicos. En la realidad, estas imágenes visualmente densas en información están muy extendidas en internet y tienen un valor de aplicación significativo en el mundo real, como la visualización de datos y el análisis de páginas web. En este informe técnico, proponemos OCRVerse, el primer método OCR holístico de extremo a extremo que permite unificar el OCR centrado en texto y el OCR centrado en visión. Para ello, construimos una ingeniería de datos integral para cubrir una amplia gama de documentos centrados en texto, como periódicos, revistas y libros, así como composiciones renderizadas centradas en la visión, incluyendo gráficos, páginas web y diagramas científicos. Además, proponemos un método de entrenamiento multidominio SFT-RL de dos etapas para OCRVerse. SFT mezcla directamente datos de múltiples dominios para entrenar y establecer conocimiento inicial del dominio, mientras que RL se centra en diseñar estrategias de recompensa personalizadas para las características de cada dominio. Específicamente, dado que diferentes dominios requieren varios formatos de salida y resultados esperados, proporcionamos suficiente flexibilidad en la etapa de RL para personalizar señales de recompensa flexibles para cada dominio, mejorando así la fusión multidominio y evitando conflictos de datos. Los resultados experimentales demuestran la efectividad de OCRVerse, logrando resultados competitivos en tipos de datos centrados en texto y visión, incluso comparables a modelos de código abierto y cerrado a gran escala.
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.
PDF423January 31, 2026