ChatPaper.aiChatPaper

PaddleOCR-VL-1.6: Erweiterung der Grenzen des Dokumentenparsings durch unteroptimierte Regionenverfeinerung und progressives Post-Training

PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

June 2, 2026
Autoren: Zelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Zusammenfassung

Wir stellen PaddleOCR-VL-1.6 vor, ein weiterentwickeltes kompaktes Dokumentenparsermodell, das auf PaddleOCR-VL-1.5 aufbaut. Obwohl PaddleOCR-VL-1.5 mit 0,9B-Parametern eine starke Baseline etabliert, konzentrieren sich die verbleibenden Fehler auf unteroptimierte Bereiche, in denen das Modellverhalten instabil, die Datenabdeckung spärlich oder die Überwachung unzuverlässig ist. Anstatt den Trainingskorpus wahllos zu erweitern, führt PaddleOCR-VL-1.6 einen bereichsbewussten Datenoptimierungsrahmen ein, der schwache Bereiche aus dem vorherigen Modell identifiziert, gezielte Verbesserungen in diesen Bereichen anwendet und die Zuverlässigkeit von Überwachungssignalen erhöht. Darüber hinaus übernimmt es ein schrittweises Nachschulungsrezept, das auf kuratierter Datenauswahl und bestärkendem Lernen basiert, und treibt die Modellleistung durch gestaffelte Optimierung auf ein höheres Niveau. PaddleOCR-VL-1.6 erreicht einen neuen Spitzenwert von 96,33 % auf OmniDocBench v1.6, zeigt starke Wettbewerbsfähigkeit gegenüber erstklassigen VLMs und bietet ein praktisches Nachschulungsrezept für die PaddleOCR-VL-Reihe.
English
We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.