OCRVerse: Rumo a um OCR Holístico em Modelos de Visão e Linguagem de Fim a Fim

Resumo

O desenvolvimento de grandes modelos de linguagem visual impulsiona a demanda pelo gerenciamento e aplicação de quantidades massivas de dados multimodais, tornando a tecnologia OCR, que extrai informações de imagens visuais, cada vez mais popular. No entanto, os métodos OCR existentes concentram-se principalmente no reconhecimento de elementos textuais a partir de imagens ou documentos digitalizados (OCR centrado em texto), negligenciando a identificação de elementos visuais a partir de fontes de imagem visualmente ricas em informação (OCR centrado em visão), como gráficos, páginas da web e ilustrações científicas. Na realidade, essas imagens visualmente densas em informação são amplamente difundidas na internet e possuem significativo valor de aplicação no mundo real, como na visualização de dados e análise de páginas web. Neste relatório técnico, propomos o OCRVerse, o primeiro método OCR holístico de forma end-to-end que permite a unificação do OCR centrado em texto e do OCR centrado em visão. Para isso, construímos uma engenharia de dados abrangente para cobrir uma ampla gama de documentos centrados em texto, como jornais, revistas e livros, bem como composições renderizadas centradas em visão, incluindo gráficos, páginas web e ilustrações científicas. Além disso, propomos um método de treinamento multi-domínio em duas etapas SFT-RL para o OCRVerse. O SFT mistura diretamente dados de múltiplos domínios para treinar e estabelecer conhecimento inicial do domínio, enquanto o RL foca em projetar estratégias de recompensa personalizadas para as características de cada domínio. Especificamente, uma vez que diferentes domínios exigem vários formatos de saída e resultados esperados, proporcionamos flexibilidade suficiente na fase de RL para personalizar sinais de recompensa flexíveis para cada domínio, melhorando assim a fusão entre domínios e evitando conflitos de dados. Resultados experimentais demonstram a eficácia do OCRVerse, alcançando resultados competitivos em tipos de dados centrados em texto e visão, comparáveis até mesmo a modelos de código aberto e proprietários em larga escala.

English

The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.

OCRVerse: Rumo a um OCR Holístico em Modelos de Visão e Linguagem de Fim a Fim

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Resumo

Support