PaddleOCR-VL-1.6: Expandiendo la frontera del análisis de documentos con refinamiento de regiones suboptimizadas y entrenamiento posterior progresivo
PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training
June 2, 2026
Autores: Zelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI
Resumen
Presentamos PaddleOCR-VL-1.6, un modelo compacto mejorado de análisis de documentos construido sobre PaddleOCR-VL-1.5. Aunque PaddleOCR-VL-1.5 establece una sólida línea base de 0.9B, sus errores remanentes se concentran en regiones suboptimizadas donde el comportamiento del modelo es inestable, la cobertura de datos es escasa o la supervisión no es fiable. En lugar de expandir indiscriminadamente el corpus de entrenamiento, PaddleOCR-VL-1.6 introduce un marco de optimización de datos sensible a regiones que identifica regiones débiles del modelo anterior, aplica mejoras dirigidas a estas regiones y mejora la fiabilidad de las señales de supervisión. Además, adopta una receta progresiva de post-entrenamiento basada en selección curada de datos y aprendizaje por refuerzo, llevando el rendimiento del modelo a un nivel superior mediante optimización por etapas. PaddleOCR-VL-1.6 alcanza una nueva puntuación de última generación del 96.33% en OmniDocBench v1.6, demuestra una fuerte competitividad frente a VLMs de primer nivel y proporciona una receta práctica de post-entrenamiento para la serie PaddleOCR-VL.
English
We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.