MinerU2.5-Pro: Spingere i Limiti del Parsing di Documenti Data-Centric su Larga Scala

Abstract

Gli attuali metodi di analisi documentale competono principalmente sull'innovazione architetturale dei modelli, mentre l'ingegnerizzazione sistematica dei dati di addestramento rimane poco esplorata. Tuttavia, i modelli state-of-the-art di diverse architetture e scale parametriche mostrano pattern di errore altamente coerenti sullo stesso insieme di campioni difficili, suggerendo che il collo di bottiglia prestazionale origini da carenze condivise nei dati di addestramento piuttosto che dall'architettura stessa. Basandoci su questa osservazione, presentiamo \minerupro, che avanza lo stato dell'arte esclusivamente attraverso l'ingegnerizzazione dei dati e l'ottimizzazione della strategia di addestramento, mantenendo completamente invariata l'architettura da 1,2 miliardi di parametri di \mineru. Il suo cuore è un Motore dei Dati co-progettato su copertura, informatività e accuratezza delle annotazioni: il Campionamento Consapevole di Diversità e Difficoltà espande i dati da meno di 10M a 65,5M di campioni correggendo lo shift distributivo; la Verifica di Coerenza Incrociata tra Modelli sfrutta l'accordo tra output di modelli eterogenei per valutare la difficoltà dei campioni e generare annotazioni affidabili; la pipeline Giudizio-e-Affinamento migliora la qualità delle annotazioni per i campioni difficili attraverso correzioni iterative di rendering e verifica. Una strategia di addestramento progressivo in tre fasi - pre-addestramento su larga scala, fine-tuning su campioni difficili e allineamento GRPO - sfrutta sequenzialmente questi dati a diversi livelli qualitativi. Sul fronte valutativo, correggiamo i bias di corrispondenza degli elementi in OmniDocBench~v1.5 e introduciamo un sottoinsieme Difficile, stabilendo il protocollo più discriminativo OmniDocBench~v1.6. Senza alcuna modifica architetturale, \minerupro raggiunge 95,69 su OmniDocBench~v1.6, migliorando di 2,71 punti la baseline a pari architettura e superando tutti i metodi esistenti inclusi modelli con oltre 200 volte i parametri.

English

Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.

MinerU2.5-Pro: Spingere i Limiti del Parsing di Documenti Data-Centric su Larga Scala

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Abstract

Support