PaddleOCR-VL-1.6: Het verleggen van de grens van documentparsing met onder-geoptimaliseerde regioverfijning en progressieve post-training

Samenvatting

We introduceren PaddleOCR-VL-1.6, een verbeterd compact documentparsemodel gebaseerd op PaddleOCR-VL-1.5. Hoewel PaddleOCR-VL-1.5 een sterke baseline van 0,9B vormt, concentreren de resterende fouten zich in ondergeoptimaliseerde regio's waar modelgedrag instabiel is, datadekking schaars is of supervisie onbetrouwbaar is. In plaats van het trainingscorpus ongericht uit te breiden, introduceert PaddleOCR-VL-1.6 een regio-bewust dataoptimalisatieframework dat zwakke regio's van het vorige model identificeert, gerichte verbetering op deze regio's toepast en de betrouwbaarheid van supervisiesignalen verbetert. Het neemt daarnaast een progressief nabehandelingsrecept aan, gebaseerd op samengestelde dataselectie en versterkingsleren, waardoor modelprestaties door gefaseerde optimalisatie naar een hoger niveau worden gebracht. PaddleOCR-VL-1.6 behaalt een nieuwe state-of-the-art score van 96,33% op OmniDocBench v1.6, toont sterke concurrentiepositie tegen top-VLM's en biedt een praktisch nabehandelingsrecept voor de PaddleOCR-VL-serie.

English

We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.