PaddleOCR-VL-1.6: Expandindo a Fronteira da Análise de Documentos com Refinamento de Região Subotimizada e Pós-Treinamento Progressivo
PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training
June 2, 2026
Autores: Zelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI
Resumo
Apresentamos o PaddleOCR-VL-1.6, um modelo compacto aprimorado de análise de documentos, construído sobre o PaddleOCR-VL-1.5. Embora o PaddleOCR-VL-1.5 estabeleça uma linha de base robusta de 0,9B, seus erros residuais concentram-se em regiões sub-otimizadas, onde o comportamento do modelo é instável, a cobertura de dados é esparsa ou a supervisão é pouco confiável. Em vez de expandir indiscriminadamente o corpus de treinamento, o PaddleOCR-VL-1.6 introduz um framework de otimização de dados consciente de regiões, que identifica regiões frágeis a partir do modelo anterior, aplica aprimoramento direcionado a essas regiões e melhora a confiabilidade dos sinais de supervisão. Além disso, adota uma receita progressiva de pós-treinamento baseada em seleção curada de dados e aprendizado por reforço, elevando o desempenho do modelo a um patamar superior por meio de otimização em etapas. O PaddleOCR-VL-1.6 alcança uma nova pontuação de estado da arte de 96,33% no OmniDocBench v1.6, demonstra forte competitividade em relação a VLMs de alto nível e fornece uma receita prática de pós-treinamento para a série PaddleOCR-VL.
English
We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.