MinerU2.5-Pro: Расширяя границы центрированного на данных парсинга документов в промышленных масштабах

Аннотация

Современные методы парсинга документов конкурируют в основном за счет инноваций в архитектуре моделей, тогда как системная инженерия обучающих данных остается малоизученной. Однако state-of-the-art (SOTA) модели различных архитектур и масштабов параметров демонстрируют высоко согласованные паттерны ошибок на одном и том же наборе сложных примеров, что указывает на то, что узкое место производительности проистекает из общих недостатков обучающих данных, а не из самой архитектуры. Опираясь на это наблюдение, мы представляем MINERUPRO, который продвигает состояние дел исключительно за счет инженерии данных и оптимизации стратегии обучения, сохраняя архитектуру MINERU с 1.2 миллиардами параметров полностью неизменной. Его ядром является механизм данных (Data Engine), совместно спроектированный вокруг покрытия, информативности и точности разметки: выборка с учетом разнообразия и сложности расширяет обучающие данные с менее чем 10 млн до 65.5 млн примеров, одновременно корректируя смещение распределения; проверка кросс-модельной согласованности использует согласие выходных данных разнородных моделей для оценки сложности примеров и генерации надежных разметок; конвейер "оценка и уточнение" улучшает качество разметки сложных примеров посредством итеративной коррекции по принципу "рендер-и-проверь". Трехэтапная прогрессивная стратегия обучения — крупномасштабное предварительное обучение, тонкая настройка на сложных примерах и выравнивание методом GRPO — последовательно использует эти данные различного уровня качества. В части оценки мы устраняем смещения, связанные с сопоставлением элементов, в OmniDocBench~v1.5 и вводим поднабор Hard, устанавливая более дискриминативный протокол OmniDocBench~v1.6. Без каких-либо архитектурных изменений MINERUPRO достигает показателя 95.69 на OmniDocBench~v1.6, улучшая результат базовой модели с той же архитектурой на 2.71 пункта и превосходя все существующие методы, включая модели с более чем в 200 раз большим количеством параметров.

English

Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.

MinerU2.5-Pro: Расширяя границы центрированного на данных парсинга документов в промышленных масштабах

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Аннотация

Support