MinerU2.5: Ein entkoppeltes Vision-Sprache-Modell für effiziente Hochauflösende Dokumentenanalyse
MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing
September 26, 2025
papers.authors: Junbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He
cs.AI
papers.abstract
Wir stellen MinerU2.5 vor, ein 1,2-Milliarden-Parameter-Vision-Sprache-Modell zur Dokumentenanalyse, das eine state-of-the-art Erkennungsgenauigkeit erreicht und dabei eine außergewöhnliche Recheneffizienz beibehält. Unser Ansatz verwendet eine grob-zu-fein, zweistufige Analysestrategie, die die globale Layoutanalyse von der lokalen Inhaltserkennung entkoppelt. In der ersten Stufe führt das Modell eine effiziente Layoutanalyse auf heruntergerechneten Bildern durch, um strukturelle Elemente zu identifizieren und so den Rechenaufwand für die Verarbeitung hochauflösender Eingaben zu umgehen. In der zweiten Stufe führt es, geleitet durch das globale Layout, eine gezielte Inhaltserkennung auf nativen Auflösungsausschnitten durch, die aus dem Originalbild extrahiert wurden, wodurch feine Details in dichtem Text, komplexen Formeln und Tabellen erhalten bleiben. Um diese Strategie zu unterstützen, entwickelten wir eine umfassende Daten-Engine, die diverse, groß angelegte Trainingskorpora sowohl für das Vorabtraining als auch für die Feinabstimmung generiert. Letztendlich zeigt MinerU2.5 eine starke Fähigkeit zur Dokumentenanalyse, erreicht state-of-the-art Leistung in mehreren Benchmarks, übertrifft sowohl allgemeine als auch domänenspezifische Modelle bei verschiedenen Erkennungsaufgaben und behält dabei einen deutlich geringeren Rechenaufwand bei.
English
We introduce MinerU2.5, a 1.2B-parameter document parsing vision-language
model that achieves state-of-the-art recognition accuracy while maintaining
exceptional computational efficiency. Our approach employs a coarse-to-fine,
two-stage parsing strategy that decouples global layout analysis from local
content recognition. In the first stage, the model performs efficient layout
analysis on downsampled images to identify structural elements, circumventing
the computational overhead of processing high-resolution inputs. In the second
stage, guided by the global layout, it performs targeted content recognition on
native-resolution crops extracted from the original image, preserving
fine-grained details in dense text, complex formulas, and tables. To support
this strategy, we developed a comprehensive data engine that generates diverse,
large-scale training corpora for both pretraining and fine-tuning. Ultimately,
MinerU2.5 demonstrates strong document parsing ability, achieving
state-of-the-art performance on multiple benchmarks, surpassing both
general-purpose and domain-specific models across various recognition tasks,
while maintaining significantly lower computational overhead.