ChatPaper.aiChatPaper

PaddleOCR-VL: Potenziamento dell'analisi multilingue di documenti tramite un modello visione-linguaggio ultra-compatto da 0.9B

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

October 16, 2025
Autori: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Abstract

In questo rapporto, proponiamo PaddleOCR-VL, un modello all'avanguardia (SOTA) ed efficiente in termini di risorse, progettato specificamente per l'analisi dei documenti. Il suo componente principale è PaddleOCR-VL-0.9B, un modello visione-linguaggio (VLM) compatto ma potente che integra un codificatore visivo a risoluzione dinamica in stile NaViT con il modello linguistico ERNIE-4.5-0.3B, consentendo un riconoscimento accurato degli elementi. Questo modello innovativo supporta in modo efficiente 109 lingue e si distingue nel riconoscimento di elementi complessi (ad esempio, testo, tabelle, formule e grafici), mantenendo al contempo un consumo minimo di risorse. Attraverso valutazioni approfondite su benchmark pubblici ampiamente utilizzati e benchmark interni, PaddleOCR-VL raggiunge prestazioni SOTA sia nell'analisi dei documenti a livello di pagina che nel riconoscimento a livello di elemento. Supera significativamente le soluzioni esistenti, dimostra una forte competitività rispetto ai migliori VLM e offre velocità di inferenza elevate. Questi punti di forza lo rendono altamente adatto per l'implementazione pratica in scenari reali.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
PDF605October 17, 2025