PaddleOCR-VL-1.6 : Repousser les limites de l’analyse de documents avec un affinement de région sous-optimisé et un post-entraînement progressif.

Résumé

Nous présentons PaddleOCR-VL-1.6, un modèle compact amélioré d'analyse de documents, construit à partir de PaddleOCR-VL-1.5. Bien que PaddleOCR-VL-1.5 établisse une baseline solide de 0,9B, les erreurs résiduelles se concentrent dans des régions sous-optimisées où le comportement du modèle est instable, la couverture des données est clairsemée ou la supervision n'est pas fiable. Plutôt que d'élargir le corpus d'entraînement de manière indiscriminée, PaddleOCR-VL-1.6 introduit un cadre d'optimisation des données sensible aux régions, qui identifie les régions faibles du modèle précédent, applique une amélioration ciblée à ces régions et améliore la fiabilité des signaux de supervision. Il adopte en outre une recette progressive de post-entraînement basée sur une sélection de données organisée et un apprentissage par renforcement, poussant la performance du modèle à un niveau supérieur grâce à une optimisation par étapes. PaddleOCR-VL-1.6 obtient un nouveau score de pointe de 96,33 % sur OmniDocBench v1.6, démontre une forte compétitivité face aux VLMs de premier plan, et fournit une recette pratique de post-entraînement pour la série PaddleOCR-VL.

English

We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.