MinerU2.5-Pro: De Grens Verleggen van Data-Gecentreerd Document Parsen op Schaal

Samenvatting

Huidige methoden voor documentparsering concurreren vooral op innovatie van modelarchitectuur, terwijl systematische engineering van trainingsdata onderbelicht blijft. Toch vertonen state-of-the-art-modellen met verschillende architecturen en parameterschalen hoogst consistente foutpatronen op dezelfde set moeilijke voorbeelden, wat suggereert dat de prestatiebeperking voortkomt uit gedeelde tekortkomingen in de trainingsdata in plaats van de architectuur zelf. Op basis van deze bevinding presenteren we \minerupro, dat de state-of-the-art verbetert uitsluitend via data-engineering en optimalisatie van de trainingsstrategie, terwijl de 1,2B-parameterarchitectuur van \mineru volledig ongewijzigd blijft. De kern wordt gevormd door een Data Engine die gelijktijdig is ontworpen rond dekking, informatiewaarde en annotatienauwkeurigheid: Diversity-and-Difficulty-Aware Sampling breidt trainingsdata uit van minder dan 10M naar 65,5M voorbeelden en corrigeert tegelijkertijd distributieverschuiving; Cross-Model Consistency Verification benut outputovereenstemming tussen heterogene modellen om voorbeeldmoeilijkheid te beoordelen en betrouwbare annotaties te genereren; de Judge-and-Refine-pijplijn verbetert annotatiekwaliteit voor moeilijke voorbeelden via render-then-verify iteratieve correctie. Een drietraps progressieve trainingsstrategie – grootschalige pre-training, fine-tuning op moeilijke voorbeelden en GRPO-alignment – benut deze data sequentieel op verschillende kwaliteitsniveaus. Op evaluatiegebied lossen we element-matching biases op in OmniDocBench~v1.5 en introduceren een Harde subset, waarmee we het meer onderscheidende OmniDocBench~v1.6-protocol vaststellen. Zonder enige architectuurwijziging behaalt \minerupro 95,69 op OmniDocBench~v1.6, een verbetering van 2,71 punten ten opzichte van dezelfde architectuurbasislijn en overtreft het alle bestaande methoden inclusief modellen met meer dan 200 keer zoveel parameters.

English

Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.

MinerU2.5-Pro: De Grens Verleggen van Data-Gecentreerd Document Parsen op Schaal

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Samenvatting

Support