PaddleOCR-VL: Verbesserung des mehrsprachigen Dokumentenparsings durch ein 0,9B ultra-kompaktes Vision-Sprache-Modell
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
October 16, 2025
papers.authors: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI
papers.abstract
In diesem Bericht stellen wir PaddleOCR-VL vor, ein ressourceneffizientes Modell mit State-of-the-Art (SOTA)-Leistung, das speziell für die Dokumentenanalyse entwickelt wurde. Sein Kernbestandteil ist PaddleOCR-VL-0.9B, ein kompaktes, aber leistungsstarkes Vision-Language-Modell (VLM), das einen NaViT-artigen dynamischen Auflösungs-Visual-Encoder mit dem ERNIE-4.5-0.3B-Sprachmodell kombiniert, um eine präzise Elementerkennung zu ermöglichen. Dieses innovative Modell unterstützt effizient 109 Sprachen und zeichnet sich durch die Erkennung komplexer Elemente (z. B. Text, Tabellen, Formeln und Diagramme) aus, während es gleichzeitig einen minimalen Ressourcenverbrauch aufweist. Durch umfassende Bewertungen auf weit verbreiteten öffentlichen Benchmarks sowie internen Benchmarks erzielt PaddleOCR-VL SOTA-Leistungen sowohl bei der seitenweisen Dokumentenanalyse als auch bei der elementbasierten Erkennung. Es übertrifft bestehende Lösungen deutlich, zeigt eine starke Wettbewerbsfähigkeit gegenüber führenden VLMs und bietet schnelle Inferenzgeschwindigkeiten. Diese Stärken machen es besonders geeignet für den praktischen Einsatz in realen Anwendungsszenarien.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model
tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a
compact yet powerful vision-language model (VLM) that integrates a NaViT-style
dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to
enable accurate element recognition. This innovative model efficiently supports
109 languages and excels in recognizing complex elements (e.g., text, tables,
formulas, and charts), while maintaining minimal resource consumption. Through
comprehensive evaluations on widely used public benchmarks and in-house
benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document
parsing and element-level recognition. It significantly outperforms existing
solutions, exhibits strong competitiveness against top-tier VLMs, and delivers
fast inference speeds. These strengths make it highly suitable for practical
deployment in real-world scenarios.