ChatPaper.aiChatPaper

PaddleOCR-VL: Potenciando el Análisis de Documentos Multilingües mediante un Modelo Ultracompacto de Visión-Lenguaje de 0.9B

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

October 16, 2025
Autores: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Resumen

En este informe, presentamos PaddleOCR-VL, un modelo de última generación (SOTA) y eficiente en recursos, diseñado específicamente para el análisis de documentos. Su componente principal es PaddleOCR-VL-0.9B, un modelo compacto pero potente de visión y lenguaje (VLM) que integra un codificador visual de resolución dinámica estilo NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para permitir un reconocimiento preciso de elementos. Este modelo innovador admite eficientemente 109 idiomas y destaca en el reconocimiento de elementos complejos (por ejemplo, texto, tablas, fórmulas y gráficos), manteniendo un consumo mínimo de recursos. A través de evaluaciones exhaustivas en puntos de referencia públicos ampliamente utilizados y en puntos de referencia internos, PaddleOCR-VL logra un rendimiento SOTA tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elementos. Supera significativamente a las soluciones existentes, muestra una fuerte competitividad frente a los mejores VLM y ofrece velocidades de inferencia rápidas. Estas fortalezas lo hacen altamente adecuado para su implementación práctica en escenarios del mundo real.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
PDF605October 17, 2025