ChatPaper.aiChatPaper

MinerU2.5: Um Modelo Visão-Linguagem Desacoplado para Análise Eficiente de Documentos em Alta Resolução

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

September 26, 2025
Autores: Junbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He
cs.AI

Resumo

Apresentamos o MinerU2.5, um modelo de visão e linguagem de 1,2 bilhão de parâmetros para análise de documentos que alcança precisão de reconhecimento de última geração enquanto mantém uma eficiência computacional excepcional. Nossa abordagem emprega uma estratégia de análise em dois estágios, do geral ao específico, que desacopla a análise de layout global do reconhecimento de conteúdo local. No primeiro estágio, o modelo realiza uma análise de layout eficiente em imagens reduzidas para identificar elementos estruturais, evitando a sobrecarga computacional de processar entradas de alta resolução. No segundo estágio, guiado pelo layout global, ele realiza o reconhecimento de conteúdo direcionado em recortes em resolução nativa extraídos da imagem original, preservando detalhes refinados em textos densos, fórmulas complexas e tabelas. Para apoiar essa estratégia, desenvolvemos um mecanismo de dados abrangente que gera corpora de treinamento diversos e em larga escala para pré-treinamento e ajuste fino. Por fim, o MinerU2.5 demonstra uma forte capacidade de análise de documentos, alcançando desempenho de última geração em múltiplos benchmarks, superando tanto modelos de propósito geral quanto modelos específicos de domínio em várias tarefas de reconhecimento, enquanto mantém uma sobrecarga computacional significativamente menor.
English
We introduce MinerU2.5, a 1.2B-parameter document parsing vision-language model that achieves state-of-the-art recognition accuracy while maintaining exceptional computational efficiency. Our approach employs a coarse-to-fine, two-stage parsing strategy that decouples global layout analysis from local content recognition. In the first stage, the model performs efficient layout analysis on downsampled images to identify structural elements, circumventing the computational overhead of processing high-resolution inputs. In the second stage, guided by the global layout, it performs targeted content recognition on native-resolution crops extracted from the original image, preserving fine-grained details in dense text, complex formulas, and tables. To support this strategy, we developed a comprehensive data engine that generates diverse, large-scale training corpora for both pretraining and fine-tuning. Ultimately, MinerU2.5 demonstrates strong document parsing ability, achieving state-of-the-art performance on multiple benchmarks, surpassing both general-purpose and domain-specific models across various recognition tasks, while maintaining significantly lower computational overhead.
PDF1212September 29, 2025