PaddleOCR-VL-1.6: Расширение границ анализа документов с помощью уточнения недостаточно оптимизированных областей и прогрессивного пост-обучения

Аннотация

Мы представляем PaddleOCR-VL-1.6 — улучшенную компактную модель для разбора документов, созданную на основе PaddleOCR-VL-1.5. Хотя PaddleOCR-VL-1.5 устанавливает надежный базовый уровень с 0,9 млрд параметров, оставшиеся ошибки сосредоточены в недостаточно оптимизированных областях, где поведение модели нестабильно, покрытие данных разрежено или сигналы контроля ненадежны. Вместо неразборчивого расширения обучающего корпуса PaddleOCR-VL-1.6 внедряет фреймворк оптимизации данных с учетом регионов, который выявляет слабые области в предыдущей модели, применяет целенаправленное улучшение этих областей и повышает надежность сигналов контроля. Модель также использует прогрессивный рецепт пост-обучения, основанный на отборе кураторских данных и обучении с подкреплением, выводя производительность модели на более высокий уровень через поэтапную оптимизацию. PaddleOCR-VL-1.6 достигает нового передового показателя 96,33% на OmniDocBench v1.6, демонстрирует высокую конкурентоспособность по сравнению с ведущими VLM и предлагает практичный рецепт пост-обучения для серии PaddleOCR-VL.

English

We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.