ChatPaper.aiChatPaper

PaddleOCR-VL-1.6: Расширение границ анализа документов с помощью уточнения недостаточно оптимизированных областей и прогрессивного пост-обучения

PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

June 2, 2026
Авторы: Zelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Аннотация

Мы представляем PaddleOCR-VL-1.6 — улучшенную компактную модель для разбора документов, созданную на основе PaddleOCR-VL-1.5. Хотя PaddleOCR-VL-1.5 устанавливает надежный базовый уровень с 0,9 млрд параметров, оставшиеся ошибки сосредоточены в недостаточно оптимизированных областях, где поведение модели нестабильно, покрытие данных разрежено или сигналы контроля ненадежны. Вместо неразборчивого расширения обучающего корпуса PaddleOCR-VL-1.6 внедряет фреймворк оптимизации данных с учетом регионов, который выявляет слабые области в предыдущей модели, применяет целенаправленное улучшение этих областей и повышает надежность сигналов контроля. Модель также использует прогрессивный рецепт пост-обучения, основанный на отборе кураторских данных и обучении с подкреплением, выводя производительность модели на более высокий уровень через поэтапную оптимизацию. PaddleOCR-VL-1.6 достигает нового передового показателя 96,33% на OmniDocBench v1.6, демонстрирует высокую конкурентоспособность по сравнению с ведущими VLM и предлагает практичный рецепт пост-обучения для серии PaddleOCR-VL.
English
We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.