다중 모달 OCR: 문서에서 모든 것을 파싱하기
Multimodal OCR: Parse Anything from Documents
March 13, 2026
저자: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai
cs.AI
초록
본 논문에서는 텍스트와 그래픽을 통합된 텍스트 표현으로 함께 파싱하는 문서 파싱 패러다임인 Multimodal OCR(MOCR)을 제안합니다. 텍스트 인식에만 집중하고 그래픽 영역을 단순히 잘라낸 픽셀로 남겨두는 기존 OCR 시스템과 달리, 우리의 방법(dots.mocr)은 차트, 다이어그램, 표, 아이콘과 같은 시각 요소를 1급 파싱 대상으로 취급하여 요소 간의 의미 관계를 보존하면서 문서를 파싱할 수 있도록 합니다. 이 방법은 다음과 같은 장점을 제공합니다: (1) 텍스트와 그래픽을 모두 구조화된 출력으로 재구성하여 더 정확한 문서 재구성을 가능하게 하고, (2) 이질적인 문서 요소에 대한 종단간 학습을 지원하여 모델이 텍스트와 시각 구성 요소 간의 의미 관계를 활용할 수 있도록 하며, (3) 기존에 폐기되던 그래픽을 재사용 가능한 코드 수준의 supervision으로 변환하여 기존 문서에 내재된 다중모달 supervision을 활용할 수 있게 합니다. 이 패러다임을 대규모로 실용화하기 위해 PDF, 렌더링된 웹페이지, 네이티브 SVG 자산으로부터 포괄적인 데이터 엔진을 구축하고, 단계적 사전 학습과 지도 미세 조정을 통해 3B 파라미터의 컴팩트 모델을 학습했습니다. dots.mocr을 문서 파싱과 구조화된 그래픽 파싱 두 가지 관점에서 평가했습니다. 문서 파싱 벤치마크에서는 우리의 OCR Arena Elo 리더보드에서 Gemini 3 Pro에 이어 두 번째로 높은 순위를 기록하며, 기존 오픈소스 문서 파싱 시스템을 능가하고 olmOCR Bench에서 83.9의 새로운 최첨단 성능을 달성했습니다. 구조화된 그래픽 파싱에서는 이미지-to-SVG 벤치마크 전반에서 Gemini 3 Pro보다 높은 재구성 품질을 달성하여 차트, UI 레이아웃, 과학 도형, 화학 다이어그램에서 강력한 성능을 입증했습니다. 이러한 결과는 다중모달 사전 학습을 위한 대규모 이미지-to-코드 코퍼스 구축으로 향하는 확장 가능한 경로를 보여줍니다. 코드와 모델은 https://github.com/rednote-hilab/dots.mocr에서 공개되어 있습니다.
English
We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.