ChatPaper.aiChatPaper

MinerU2.5-Pro : Repousser les limites de l'analyse de documents centrée sur les données à grande échelle

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

April 6, 2026
Auteurs: Bin Wang, Tianyao He, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Tao Chu, Yuan Qu, Zhenjiang Jin, Weijun Zeng, Ziyang Miao, Bangrui Xu, Junbo Niu, Mengzhang Cai, Jiantao Qiu, Qintong Zhang, Dongsheng Ma, Yuefeng Sun, Hejun Dong, Wenzheng Zhang, Jutao Xiao, Jiayong Shi, Pengyu Liao, Xiaomeng Zhao, Huaping Zhong, Liqun Wei, Jing Yu, Jie Yang, Wei Li, Shasha Wang, Qianqian Wu, Xuanhe Zhou, Weijia Li, Zhenxiang Li, Zhongying Tu, Jiang Wu, Lijun Wu, Chao Xu, Kai Chen, Wentao Zhang, Yu Qiao, Bowen Zhou, Dahua Lin, Conghui He
cs.AI

Résumé

Les méthodes actuelles d'analyse de documents rivalisent principalement sur l'innovation architecturale des modèles, tandis que l'ingénierie systématique des données d'entraînement reste sous-explorée. Pourtant, les modèles SOTA de différentes architectures et échelles de paramètres présentent des schémas d'échec très cohérents sur le même ensemble d'échantillons difficiles, suggérant que le goulot d'étranglement des performances provient de déficiences partagées dans les données d'entraînement plutôt que de l'architecture elle-même. S'appuyant sur cette observation, nous présentons \minerupro, qui améliore l'état de l'art uniquement par l'ingénierie des données et l'optimisation des stratégies d'entraînement, tout en maintenant l'architecture à 1,2 milliard de paramètres de \mineru complètement fixe. Son cœur est un moteur de données co-conçu autour de la couverture, de l'informativité et de la précision des annotations : l'échantillonnage sensible à la diversité et à la difficulté étend les données d'entraînement de moins de 10 millions à 65,5 millions d'échantillons tout en corrigeant le décalage de distribution ; la vérification de cohérence inter-modèles exploite l'accord de sortie entre modèles hétérogènes pour évaluer la difficulté des échantillons et générer des annotations fiables ; le pipeline Juger-et-affiner améliore la qualité des annotations pour les échantillons difficiles via une correction itérative de type rendre-puis-vérifier. Une stratégie d'entraînement progressive en trois étapes - pré-entraînement à grande échelle, fine-tuning sur échantillons difficiles et alignement GRPO - exploite séquentiellement ces données à différents niveaux de qualité. Sur le plan de l'évaluation, nous corrigeons les biais d'appariement d'éléments dans OmniDocBench~v1.5 et introduisons un sous-ensemble Difficile, établissant le protocole OmniDocBench~v1.6 plus discriminant. Sans aucune modification architecturale, \minerupro atteint 95,69 sur OmniDocBench~v1.6, améliorant de 2,71 points la baseline de même architecture et surpassant toutes les méthodes existantes, y compris les modèles avec plus de 200 fois plus de paramètres.
English
Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored. Yet SOTA models of different architectures and parameter scales exhibit highly consistent failure patterns on the same set of hard samples, suggesting that the performance bottleneck stems from shared deficiencies in training data rather than architecture itself. Building on this finding, we present \minerupro, which advances the state of the art solely through data engineering and training strategy optimization while keeping the 1.2B-parameter architecture of \mineru completely fixed. At its core is a Data Engine co-designed around coverage, informativeness, and annotation accuracy: Diversity-and-Difficulty-Aware Sampling expands training data from under 10M to 65.5M samples while correcting distribution shift; Cross-Model Consistency Verification leverages output agreement among heterogeneous models to assess sample difficulty and generate reliable annotations; the Judge-and-Refine pipeline improves annotation quality for hard samples through render-then-verify iterative correction. A three-stage progressive training strategy -- large-scale pre-training, hard sample fine-tuning, and GRPO alignment -- sequentially exploits these data at different quality tiers. On the evaluation front, we fix element-matching biases in OmniDocBench~v1.5 and introduce a Hard subset, establishing the more discriminative OmniDocBench~v1.6 protocol. Without any architectural modification, \minerupro achieves 95.69 on OmniDocBench~v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200times more parameters.
PDF892April 8, 2026