ChatPaper.aiChatPaper

OCRVerse: 종단간 비전-언어 모델에서의 통합 OCR 접근

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

January 29, 2026
저자: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI

초록

대규모 시각 언어 모델의 발전은 방대한 양의 다중모드 데이터 관리 및 적용에 대한 수요를 촉진하며, 시각 이미지에서 정보를 추출하는 OCR 기술의 중요성을 더욱 부각시키고 있습니다. 그러나 기존 OCR 방법은 주로 이미지나 스캔 문서에서 텍스트 요소를 인식(텍스트 중심 OCR)하는 데 집중하고, 차트, 웹 페이지, 과학 플롯 등과 같이 시각적 정보가 밀집된 이미지 소스에서 시각 요소를 식별(비전 중심 OCR)하는 것을 간과해 왔습니다. 실제로 이러한 시각적 정보 밀집 이미지는 인터넷에 광범위하게 분포하며 데이터 시각화 및 웹 페이지 분석 등 상당한 실용적 가치를 지닙니다. 본 기술 보고서에서는 텍스트 중심 OCR과 비전 중심 OCR을 통합한 최초의 엔드투엔드 방식의 종합적 OCR 방법론인 OCRVerse를 제안합니다. 이를 위해 신문, 잡지, 서적 등 다양한 텍스트 중심 문서와 차트, 웹 페이지, 과학 플롯을 포함한 비전 중심 렌더링 합성물을 포괄하는 종합적인 데이터 엔지니어링을 구축하였습니다. 더불어 OCRVerse를 위한 2단계 SFT-RL 다중 도메인 학습 방법을 제시합니다. SFT는 교차 도메인 데이터를 직접 혼합하여 초기 도메인 지식을 구축하는 반면, RL은 각 도메인의 특성에 맞춰 개인화된 보상 전략 설계에 중점을 둡니다. 구체적으로, 서로 다른 도메인은 다양한 출력 형식과 기대 출력을 요구하므로 RL 단계에서 충분한 유연성을 제공하여 각 도메인에 맞는 적응형 보상 신호를定制함으로써 교차 도메인 융합을 개선하고 데이터 충돌을 방지합니다. 실험 결과 OCRVerse의 효과성이 입증되었으며, 텍스트 중심 및 비전 중심 데이터 유형 전반에 걸쳐 경쟁력 있는 성능을 달성하여 대규모 오픈소스 및 클로즈드소스 모델과 견줄 만한 결과를 보여주었습니다.
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.
PDF423January 31, 2026