ChatPaper.aiChatPaper

PaddleOCR-VL-1.6 : Repousser les limites de l’analyse de documents avec un affinement de région sous-optimisé et un post-entraînement progressif.

PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

June 2, 2026
Auteurs: Zelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI

Résumé

Nous présentons PaddleOCR-VL-1.6, un modèle compact amélioré d'analyse de documents, construit à partir de PaddleOCR-VL-1.5. Bien que PaddleOCR-VL-1.5 établisse une baseline solide de 0,9B, les erreurs résiduelles se concentrent dans des régions sous-optimisées où le comportement du modèle est instable, la couverture des données est clairsemée ou la supervision n'est pas fiable. Plutôt que d'élargir le corpus d'entraînement de manière indiscriminée, PaddleOCR-VL-1.6 introduit un cadre d'optimisation des données sensible aux régions, qui identifie les régions faibles du modèle précédent, applique une amélioration ciblée à ces régions et améliore la fiabilité des signaux de supervision. Il adopte en outre une recette progressive de post-entraînement basée sur une sélection de données organisée et un apprentissage par renforcement, poussant la performance du modèle à un niveau supérieur grâce à une optimisation par étapes. PaddleOCR-VL-1.6 obtient un nouveau score de pointe de 96,33 % sur OmniDocBench v1.6, démontre une forte compétitivité face aux VLMs de premier plan, et fournit une recette pratique de post-entraînement pour la série PaddleOCR-VL.
English
We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.