PaddleOCR-VL: Impulsionando a Análise de Documentos Multilíngues com um Modelo Visão-Linguagem Ultracompacto de 0.9B
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
October 16, 2025
Autores: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI
Resumo
Neste relatório, propomos o PaddleOCR-VL, um modelo SOTA e eficiente em recursos, projetado especificamente para análise de documentos. Seu componente central é o PaddleOCR-VL-0.9B, um modelo compacto, porém poderoso, de visão e linguagem (VLM) que integra um codificador visual de resolução dinâmica no estilo NaViT com o modelo de linguagem ERNIE-4.5-0.3B, permitindo o reconhecimento preciso de elementos. Este modelo inovador suporta eficientemente 109 idiomas e se destaca no reconhecimento de elementos complexos (por exemplo, texto, tabelas, fórmulas e gráficos), mantendo um consumo mínimo de recursos. Por meio de avaliações abrangentes em benchmarks públicos amplamente utilizados e benchmarks internos, o PaddleOCR-VL alcança desempenho SOTA tanto na análise de documentos em nível de página quanto no reconhecimento de elementos em nível individual. Ele supera significativamente as soluções existentes, exibe forte competitividade em relação aos VLMs de ponta e oferece velocidades de inferência rápidas. Essas vantagens o tornam altamente adequado para implantação prática em cenários do mundo real.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model
tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a
compact yet powerful vision-language model (VLM) that integrates a NaViT-style
dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to
enable accurate element recognition. This innovative model efficiently supports
109 languages and excels in recognizing complex elements (e.g., text, tables,
formulas, and charts), while maintaining minimal resource consumption. Through
comprehensive evaluations on widely used public benchmarks and in-house
benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document
parsing and element-level recognition. It significantly outperforms existing
solutions, exhibits strong competitiveness against top-tier VLMs, and delivers
fast inference speeds. These strengths make it highly suitable for practical
deployment in real-world scenarios.