ChatPaper.aiChatPaper

PaddleOCR-VL: Улучшение обработки многоязычных документов с помощью ультракомпактной визуально-языковой модели на 0.9 миллиарда параметров

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

October 16, 2025
Авторы: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Аннотация

В данном отчете мы представляем PaddleOCR-VL — современную и ресурсоэффективную модель, разработанную для анализа документов. Ее ключевым компонентом является PaddleOCR-VL-0.9B, компактная, но мощная модель обработки визуальной информации и текста (VLM), которая объединяет визуальный кодировщик с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B для точного распознавания элементов. Эта инновационная модель эффективно поддерживает 109 языков и превосходно справляется с распознаванием сложных элементов (например, текста, таблиц, формул и графиков), сохраняя при этом минимальное потребление ресурсов. Благодаря всесторонним оценкам на широко используемых публичных и внутренних тестовых наборах данных, PaddleOCR-VL демонстрирует наилучшие результаты как в анализе документов на уровне страниц, так и в распознавании элементов на уровне отдельных объектов. Она значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с ведущими моделями VLM и обеспечивает быструю скорость вывода. Эти преимущества делают ее идеально подходящей для практического применения в реальных сценариях.
English
In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
PDF605October 17, 2025