OCRVerse: Verso un OCR olistico nei modelli visione-linguaggio end-to-end

Abstract

Lo sviluppo di grandi modelli linguistici visivi alimenta la richiesta di gestire e applicare enormi quantità di dati multimodali, rendendo sempre più popolare la tecnologia OCR, che estrae informazioni da immagini visive. Tuttavia, i metodi OCR esistenti si concentrano principalmente sul riconoscimento di elementi testuali da immagini o documenti scansionati (OCR centrato sul testo), tralasciando l'identificazione di elementi visivi da fonti di immagini ad alta densità informativa visiva (OCR centrato sulla visione), come grafici, pagine web e diagrammi scientifici. Nella realtà, queste immagini ricche di informazioni visive sono ampiamente diffuse su Internet e possiedono un significativo valore applicativo nel mondo reale, come nella visualizzazione di dati e nell'analisi di pagine web. In questo report tecnico, proponiamo OCRVerse, il primo metodo OCR olistico in modalità end-to-end che consente un'unificazione tra OCR centrato sul testo e OCR centrato sulla visione. A tal fine, abbiamo costruito un'ingegneria dei dati completa per coprire un'ampia gamma di documenti orientati al testo, come giornali, riviste e libri, nonché compositi renderizzati orientati alla visione, inclusi grafici, pagine web e diagrammi scientifici. Inoltre, proponiamo per OCRVerse un metodo di addestramento multi-dominio a due stadi SFT-RL. L'SFT mescola direttamente dati cross-dominio per addestrare e stabilire una conoscenza di dominio iniziale, mentre l'RL si concentra sulla progettazione di strategie di ricompensa personalizzate per le caratteristiche di ciascun dominio. Nello specifico, poiché diversi domini richiedono vari formati di output e risultati attesi, forniamo sufficiente flessibilità nella fase RL per personalizzare segnali di ricompensa flessibili per ogni dominio, migliorando così la fusione cross-dominio ed evitando conflitti di dati. I risultati sperimentali dimostrano l'efficacia di OCRVerse, raggiungendo risultati competitivi su tipi di dati sia centrati sul testo che sulla visione, paragonabili persino a modelli open-source e closed-source su larga scala.

English

The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.

OCRVerse: Verso un OCR olistico nei modelli visione-linguaggio end-to-end

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Abstract

Support