PaddleOCR-VL: Impulsionando a Análise de Documentos Multilíngues com um Modelo Visão-Linguagem Ultracompacto de 0.9B

Resumo

Neste relatório, propomos o PaddleOCR-VL, um modelo SOTA e eficiente em recursos, projetado especificamente para análise de documentos. Seu componente central é o PaddleOCR-VL-0.9B, um modelo compacto, porém poderoso, de visão e linguagem (VLM) que integra um codificador visual de resolução dinâmica no estilo NaViT com o modelo de linguagem ERNIE-4.5-0.3B, permitindo o reconhecimento preciso de elementos. Este modelo inovador suporta eficientemente 109 idiomas e se destaca no reconhecimento de elementos complexos (por exemplo, texto, tabelas, fórmulas e gráficos), mantendo um consumo mínimo de recursos. Por meio de avaliações abrangentes em benchmarks públicos amplamente utilizados e benchmarks internos, o PaddleOCR-VL alcança desempenho SOTA tanto na análise de documentos em nível de página quanto no reconhecimento de elementos em nível individual. Ele supera significativamente as soluções existentes, exibe forte competitividade em relação aos VLMs de ponta e oferece velocidades de inferência rápidas. Essas vantagens o tornam altamente adequado para implantação prática em cenários do mundo real.

English

In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.