ChatPaper.aiChatPaper

PaddleOCR-VL: 0.9B 초소형 비전-언어 모델을 통한 다국어 문서 파싱 성능 향상

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

October 16, 2025
저자: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

초록

본 보고서에서는 문서 파싱에 특화된 SOTA(State-of-the-Art)이자 자원 효율적인 모델인 PaddleOCR-VL을 제안합니다. 이 모델의 핵심 구성 요소는 PaddleOCR-VL-0.9B로, NaViT 스타일의 동적 해상도 비전 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합한 컴팩트하면서도 강력한 비전-언어 모델(VLM)입니다. 이 혁신적인 모델은 109개 언어를 효율적으로 지원하며 텍스트, 표, 수식, 차트와 같은 복잡한 요소를 정확하게 인식하는 동시에 최소한의 자원을 소비합니다. 널리 사용되는 공개 벤치마크와 내부 벤치마크에 대한 포괄적인 평가를 통해 PaddleOCR-VL은 페이지 수준의 문서 파싱과 요소 수준의 인식 모두에서 SOTA 성능을 달성했습니다. 이 모델은 기존 솔루션을 크게 능가하며, 최상위 VLM과의 강력한 경쟁력을 보여주고 빠른 추론 속도를 제공합니다. 이러한 장점으로 인해 실제 현장에서의 실용적인 배포에 매우 적합합니다.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
PDF605October 17, 2025