ChatPaper.aiChatPaper

PaddleOCR-VL: Verbetering van meertalige documentparsering via een 0.9B ultracompact vision-taalmodel

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

October 16, 2025
Auteurs: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Samenvatting

In dit rapport stellen we PaddleOCR-VL voor, een state-of-the-art en resource-efficiënt model dat is afgestemd op documentparsing. De kerncomponent is PaddleOCR-VL-0.9B, een compact maar krachtig vision-language model (VLM) dat een NaViT-stijl dynamische resolutie visuele encoder integreert met het ERNIE-4.5-0.3B taalmodel om nauwkeurige elementherkenning mogelijk te maken. Dit innovatieve model ondersteunt efficiënt 109 talen en blinkt uit in het herkennen van complexe elementen (bijv. tekst, tabellen, formules en grafieken), terwijl het een minimaal resourceverbruik behoudt. Door uitgebreide evaluaties op veelgebruikte publieke benchmarks en interne benchmarks bereikt PaddleOCR-VL state-of-the-art prestaties in zowel paginaniveau documentparsing als elementniveau herkenning. Het overtreft aanzienlijk bestaande oplossingen, toont sterke concurrentievermogen tegen top-tier VLMs en levert snelle inferentiesnelheden. Deze sterke punten maken het zeer geschikt voor praktische implementatie in real-world scenario's.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
PDF605October 17, 2025