MDocAgent: Uma Estrutura Multiagente Multimodal para Compreensão de Documentos
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
March 18, 2025
Autores: Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
cs.AI
Resumo
A Resposta a Perguntas em Documentos (Document Question Answering - DocQA) é uma tarefa bastante comum. Os métodos existentes que utilizam Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) ou Modelos de Linguagem Visual de Grande Escala (Large Vision Language Models - LVLMs) e Geração Aumentada por Recuperação (Retrieval Augmented Generation - RAG) frequentemente priorizam informações de uma única modalidade, falhando em integrar efetivamente pistas textuais e visuais. Essas abordagens enfrentam dificuldades com raciocínio multi-modal complexo, limitando seu desempenho em documentos do mundo real. Apresentamos o MDocAgent (Um Framework Multi-Modal e Multi-Agente para Compreensão de Documentos), um novo framework RAG e multi-agente que aproveita tanto texto quanto imagem. Nosso sistema emprega cinco agentes especializados: um agente geral, um agente crítico, um agente de texto, um agente de imagem e um agente de resumo. Esses agentes realizam recuperação de contexto multi-modal, combinando suas percepções individuais para alcançar uma compreensão mais abrangente do conteúdo do documento. Essa abordagem colaborativa permite que o sistema sintetize informações tanto dos componentes textuais quanto visuais, resultando em uma precisão aprimorada na resposta a perguntas. Experimentos preliminares em cinco benchmarks, como MMLongBench e LongDocURL, demonstram a eficácia do nosso MDocAgent, alcançando uma melhoria média de 12,1% em comparação com o método state-of-the-art atual. Este trabalho contribui para o desenvolvimento de sistemas DocQA mais robustos e abrangentes, capazes de lidar com as complexidades de documentos do mundo real que contêm informações textuais e visuais ricas. Nossos dados e código estão disponíveis em https://github.com/aiming-lab/MDocAgent.
English
Document Question Answering (DocQA) is a very common task. Existing methods
using Large Language Models (LLMs) or Large Vision Language Models (LVLMs) and
Retrieval Augmented Generation (RAG) often prioritize information from a single
modal, failing to effectively integrate textual and visual cues. These
approaches struggle with complex multi-modal reasoning, limiting their
performance on real-world documents. We present MDocAgent (A Multi-Modal
Multi-Agent Framework for Document Understanding), a novel RAG and multi-agent
framework that leverages both text and image. Our system employs five
specialized agents: a general agent, a critical agent, a text agent, an image
agent and a summarizing agent. These agents engage in multi-modal context
retrieval, combining their individual insights to achieve a more comprehensive
understanding of the document's content. This collaborative approach enables
the system to synthesize information from both textual and visual components,
leading to improved accuracy in question answering. Preliminary experiments on
five benchmarks like MMLongBench, LongDocURL demonstrate the effectiveness of
our MDocAgent, achieve an average improvement of 12.1% compared to current
state-of-the-art method. This work contributes to the development of more
robust and comprehensive DocQA systems capable of handling the complexities of
real-world documents containing rich textual and visual information. Our data
and code are available at https://github.com/aiming-lab/MDocAgent.Summary
AI-Generated Summary