ChatPaper.aiChatPaper

MDocAgent: Uma Estrutura Multiagente Multimodal para Compreensão de Documentos

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

March 18, 2025
Autores: Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
cs.AI

Resumo

A Resposta a Perguntas em Documentos (Document Question Answering - DocQA) é uma tarefa bastante comum. Os métodos existentes que utilizam Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) ou Modelos de Linguagem Visual de Grande Escala (Large Vision Language Models - LVLMs) e Geração Aumentada por Recuperação (Retrieval Augmented Generation - RAG) frequentemente priorizam informações de uma única modalidade, falhando em integrar efetivamente pistas textuais e visuais. Essas abordagens enfrentam dificuldades com raciocínio multi-modal complexo, limitando seu desempenho em documentos do mundo real. Apresentamos o MDocAgent (Um Framework Multi-Modal e Multi-Agente para Compreensão de Documentos), um novo framework RAG e multi-agente que aproveita tanto texto quanto imagem. Nosso sistema emprega cinco agentes especializados: um agente geral, um agente crítico, um agente de texto, um agente de imagem e um agente de resumo. Esses agentes realizam recuperação de contexto multi-modal, combinando suas percepções individuais para alcançar uma compreensão mais abrangente do conteúdo do documento. Essa abordagem colaborativa permite que o sistema sintetize informações tanto dos componentes textuais quanto visuais, resultando em uma precisão aprimorada na resposta a perguntas. Experimentos preliminares em cinco benchmarks, como MMLongBench e LongDocURL, demonstram a eficácia do nosso MDocAgent, alcançando uma melhoria média de 12,1% em comparação com o método state-of-the-art atual. Este trabalho contribui para o desenvolvimento de sistemas DocQA mais robustos e abrangentes, capazes de lidar com as complexidades de documentos do mundo real que contêm informações textuais e visuais ricas. Nossos dados e código estão disponíveis em https://github.com/aiming-lab/MDocAgent.
English
Document Question Answering (DocQA) is a very common task. Existing methods using Large Language Models (LLMs) or Large Vision Language Models (LVLMs) and Retrieval Augmented Generation (RAG) often prioritize information from a single modal, failing to effectively integrate textual and visual cues. These approaches struggle with complex multi-modal reasoning, limiting their performance on real-world documents. We present MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding), a novel RAG and multi-agent framework that leverages both text and image. Our system employs five specialized agents: a general agent, a critical agent, a text agent, an image agent and a summarizing agent. These agents engage in multi-modal context retrieval, combining their individual insights to achieve a more comprehensive understanding of the document's content. This collaborative approach enables the system to synthesize information from both textual and visual components, leading to improved accuracy in question answering. Preliminary experiments on five benchmarks like MMLongBench, LongDocURL demonstrate the effectiveness of our MDocAgent, achieve an average improvement of 12.1% compared to current state-of-the-art method. This work contributes to the development of more robust and comprehensive DocQA systems capable of handling the complexities of real-world documents containing rich textual and visual information. Our data and code are available at https://github.com/aiming-lab/MDocAgent.

Summary

AI-Generated Summary

PDF192March 26, 2025