MinerU2.5-Pro: Expandindo os Limites do Processamento de Documentos Centrado em Dados em Escala

Resumo

Os métodos atuais de análise de documentos competem principalmente através da inovação na arquitetura de modelos, enquanto a engenharia sistemática de dados de treinamento permanece pouco explorada. No entanto, modelos de última geração (SOTA) de diferentes arquiteturas e escalas de parâmetros exibem padrões de falha altamente consistentes no mesmo conjunto de amostras difíceis, sugerindo que o gargalo de desempenho origina-se de deficiências compartilhadas nos dados de treinamento, e não da arquitetura em si. Com base nesta descoberta, apresentamos o \minerupro, que avança o estado da arte unicamente através de engenharia de dados e otimização de estratégias de treinamento, mantendo completamente fixa a arquitetura de 1,2 bilhão de parâmetros do \mineru. Em seu núcleo está um Motor de Dados co-projetado em torno de cobertura, informatividade e precisão de anotação: a Amostragem Consciente de Diversidade e Dificuldade expande os dados de treinamento de menos de 10 milhões para 65,5 milhões de amostras, corrigindo simultaneamente o desvio de distribuição; a Verificação de Consistência entre Modelos aproveita o acordo de saída entre modelos heterogêneos para avaliar a dificuldade da amostra e gerar anotações confiáveis; o pipeline Julgar e Refinar melhora a qualidade da anotação para amostras difíceis através de correção iterativa do tipo renderizar-depois-verificar. Uma estratégia de treinamento progressiva em três estágios - pré-treinamento em larga escala, ajuste fino com amostras difíceis e alinhamento por GRPO - explora sequencialmente estes dados em diferentes níveis de qualidade. Na frente de avaliação, corrigimos vieses de correspondência de elementos no OmniDocBench~v1.5 e introduzimos um subconjunto Hard, estabelecendo o protocolo mais discriminativo OmniDocBench~v1.6. Sem qualquer modificação arquitetural, o \minerupro atinge 95,69 no OmniDocBench~v1.6, melhorando em 2,71 pontos sobre a linha de base de mesma arquitetura e superando todos os métodos existentes, incluindo modelos com mais de 200 vezes mais parâmetros.

English

Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.

MinerU2.5-Pro: Expandindo os Limites do Processamento de Documentos Centrado em Dados em Escala

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Resumo

Support