MinerU2.5-Pro: Llevando al Límite el Análisis de Documentos Centrado en Datos a Gran Escala

Resumen

Los métodos actuales de análisis de documentos compiten principalmente mediante innovaciones en arquitecturas de modelos, mientras que la ingeniería sistemática de datos de entrenamiento sigue siendo un área poco explorada. Sin embargo, los modelos de última generación con diferentes arquitecturas y escalas de parámetros exhiben patrones de fallo altamente consistentes en el mismo conjunto de muestras difíciles, lo que sugiere que el cuello de botella en el rendimiento proviene de deficiencias compartidas en los datos de entrenamiento y no de la arquitectura en sí. Basándonos en este hallazgo, presentamos \minerupro, que avanza el estado del arte únicamente mediante ingeniería de datos y optimización de estrategias de entrenamiento, manteniendo completamente fija la arquitectura de 1.200 millones de parámetros de \mineru. Su núcleo es un Motor de Datos co-diseñado en torno a cobertura, informatividad y precisión de anotación: el Muestreo Consciente de Diversidad y Dificultad expande los datos de entrenamiento de menos de 10M a 65.5M de muestras mientras corrige el desplazamiento de distribución; la Verificación de Consistencia entre Modelos Heterogéneos aprovecha la concordancia de salidas entre modelos diversos para evaluar la dificultad de las muestras y generar anotaciones confiables; la canalización Juzgar-y-Perfeccionar mejora la calidad de las anotaciones para muestras difíciles mediante corrección iterativa de renderizar-y-verificar. Una estrategia de entrenamiento progresivo en tres etapas - pre-entrenamiento a gran escala, ajuste fino con muestras difíciles y alineación GRPO - explota secuencialmente estos datos en diferentes niveles de calidad. En el ámbito evaluativo, corregimos los sesgos de coincidencia de elementos en OmniDocBench~v1.5 e introdujimos un subconjunto Difícil, estableciendo el protocolo más discriminativo OmniDocBench~v1.6. Sin modificación arquitectónica alguna, \minerupro alcanza 95.69 en OmniDocBench~v1.6, mejorando en 2.71 puntos sobre la línea base de misma arquitectura y superando todos los métodos existentes, incluyendo modelos con más de 200 veces más parámetros.

English

Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.

MinerU2.5-Pro: Llevando al Límite el Análisis de Documentos Centrado en Datos a Gran Escala

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Resumen

Support