ChatPaper.aiChatPaper

PaddleOCR-VL: 0.9Bの超コンパクト視覚言語モデルによる多言語ドキュメント解析の強化

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

October 16, 2025
著者: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

要旨

本報告では、ドキュメント解析に特化したSOTA(State-of-the-Art)かつリソース効率の高いモデルであるPaddleOCR-VLを提案する。その中核を成すのはPaddleOCR-VL-0.9Bであり、これはコンパクトでありながら強力な視覚言語モデル(VLM)である。このモデルは、NaViTスタイルの動的解像度視覚エンコーダとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を可能にしている。この革新的なモデルは、109言語を効率的にサポートし、テキスト、表、数式、チャートなどの複雑な要素の認識に優れながら、最小限のリソース消費を維持する。広く使用されている公開ベンチマークおよび社内ベンチマークでの包括的な評価を通じて、PaddleOCR-VLはページレベルでのドキュメント解析および要素レベルの認識においてSOTA性能を達成した。既存のソリューションを大幅に上回り、トップクラスのVLMに対して強い競争力を示し、高速な推論速度を実現している。これらの強みにより、実世界のシナリオでの実用的な展開に非常に適している。
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
PDF605October 17, 2025