PaddleOCR-VL-1.6: Expandiendo la frontera del análisis de documentos con refinamiento de regiones suboptimizadas y entrenamiento posterior progresivo

Resumen

Presentamos PaddleOCR-VL-1.6, un modelo compacto mejorado de análisis de documentos construido sobre PaddleOCR-VL-1.5. Aunque PaddleOCR-VL-1.5 establece una sólida línea base de 0.9B, sus errores remanentes se concentran en regiones suboptimizadas donde el comportamiento del modelo es inestable, la cobertura de datos es escasa o la supervisión no es fiable. En lugar de expandir indiscriminadamente el corpus de entrenamiento, PaddleOCR-VL-1.6 introduce un marco de optimización de datos sensible a regiones que identifica regiones débiles del modelo anterior, aplica mejoras dirigidas a estas regiones y mejora la fiabilidad de las señales de supervisión. Además, adopta una receta progresiva de post-entrenamiento basada en selección curada de datos y aprendizaje por refuerzo, llevando el rendimiento del modelo a un nivel superior mediante optimización por etapas. PaddleOCR-VL-1.6 alcanza una nueva puntuación de última generación del 96.33% en OmniDocBench v1.6, demuestra una fuerte competitividad frente a VLMs de primer nivel y proporciona una receta práctica de post-entrenamiento para la serie PaddleOCR-VL.

English

We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.