PaddleOCR-VL-1.6: Expandindo a Fronteira da Análise de Documentos com Refinamento de Região Subotimizada e Pós-Treinamento Progressivo

Resumo

Apresentamos o PaddleOCR-VL-1.6, um modelo compacto aprimorado de análise de documentos, construído sobre o PaddleOCR-VL-1.5. Embora o PaddleOCR-VL-1.5 estabeleça uma linha de base robusta de 0,9B, seus erros residuais concentram-se em regiões sub-otimizadas, onde o comportamento do modelo é instável, a cobertura de dados é esparsa ou a supervisão é pouco confiável. Em vez de expandir indiscriminadamente o corpus de treinamento, o PaddleOCR-VL-1.6 introduz um framework de otimização de dados consciente de regiões, que identifica regiões frágeis a partir do modelo anterior, aplica aprimoramento direcionado a essas regiões e melhora a confiabilidade dos sinais de supervisão. Além disso, adota uma receita progressiva de pós-treinamento baseada em seleção curada de dados e aprendizado por reforço, elevando o desempenho do modelo a um patamar superior por meio de otimização em etapas. O PaddleOCR-VL-1.6 alcança uma nova pontuação de estado da arte de 96,33% no OmniDocBench v1.6, demonstra forte competitividade em relação a VLMs de alto nível e fornece uma receita prática de pós-treinamento para a série PaddleOCR-VL.

English

We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.