MinerU2.5-Pro: Die Grenzen des datenzentrierten Dokumentenparsings im großen Maßstab verschieben

Zusammenfassung

Aktuelle Methoden zur Dokumentenanalyse konkurrieren primär durch Innovationen in der Modellarchitektur, während eine systematische Optimierung der Trainingsdaten bislang wenig erforscht bleibt. Dennoch zeigen State-of-the-Art-Modelle unterschiedlicher Architekturen und Parametergrößen hochgradig konsistente Fehlermuster bei denselben schwierigen Beispielen, was darauf hindeutet, dass der Leistungsengpass auf gemeinsamen Defiziten in den Trainingsdaten beruht und nicht auf der Architektur selbst. Aufbauend auf dieser Erkenntnis stellen wir \minerupro vor, das den State of the Art ausschließlich durch Datenengineering und Optimierung der Trainingsstrategie vorantreibt, während die 1,2-Milliarden-Parameter-Architektur von \mineru unverändert bleibt. Kernstück ist eine Data Engine, die um die Kriterien Abdeckung, Informationsgehalt und Annotationsgenauigkeit entwickelt wurde: Diversitäts- und Schwierigkeitsbewusstes Sampling erweitert die Trainingsdaten von unter 10 Millionen auf 65,5 Millionen Beispiele und korrigiert dabei eine Verteilungsverschiebung; Kreuzmodell-Konsistenzprüfung nutzt die Übereinstimmung der Ausgaben heterogener Modelle, um den Schwierigkeitsgrad von Beispielen zu bewerten und zuverlässige Annotationen zu generieren; die Judge-and-Refine-Pipeline verbessert die Annotationsqualität für schwierige Beispiele durch iteratives Rendern und Verifizieren. Eine dreistufige, progressive Trainingsstrategie – Large-Scale Vorverarbeitung, Feinabstimmung auf schwierige Beispiele und GRPO-Alignment – nutzt diese Daten unterschiedlicher Qualitätsstufen sequenziell aus. Auf der Evaluierungsseite beheben wir Element-Matching-Verzerrungen in OmniDocBench~v1.5 und führen einen Hard-Subset ein, wodurch wir das diskriminativere OmniDocBench~v1.6-Protokoll etablieren. Ohne jegliche Architekturmodifikation erreicht \minerupro 95,69 Punkte auf OmniDocBench~v1.6, verbessert sich damit um 2,71 Punkte gegenüber der Baseline mit gleicher Architektur und übertrifft alle bestehenden Methoden, einschließlich Modelle mit über 200-mal mehr Parametern.

English

Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.

MinerU2.5-Pro: Die Grenzen des datenzentrierten Dokumentenparsings im großen Maßstab verschieben

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Zusammenfassung

Support