MDocAgent: Un Marco de Multiagentes Multimodal para la Comprensión de Documentos
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
March 18, 2025
Autores: Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
cs.AI
Resumen
La Respuesta a Preguntas sobre Documentos (Document Question Answering, DocQA) es una tarea muy común. Los métodos existentes que utilizan Modelos de Lenguaje de Gran Escala (Large Language Models, LLMs) o Modelos de Lenguaje y Visión de Gran Escala (Large Vision Language Models, LVLMs) junto con Generación Aumentada por Recuperación (Retrieval Augmented Generation, RAG) suelen priorizar la información de una sola modalidad, sin integrar de manera efectiva las señales textuales y visuales. Estos enfoques tienen dificultades con el razonamiento multimodal complejo, lo que limita su rendimiento en documentos del mundo real. Presentamos MDocAgent (Un Marco de Multiagentes Multimodal para la Comprensión de Documentos), un novedoso marco RAG y multiagente que aprovecha tanto el texto como la imagen. Nuestro sistema emplea cinco agentes especializados: un agente general, un agente crítico, un agente de texto, un agente de imagen y un agente de resumen. Estos agentes participan en la recuperación de contexto multimodal, combinando sus conocimientos individuales para lograr una comprensión más completa del contenido del documento. Este enfoque colaborativo permite al sistema sintetizar información tanto de los componentes textuales como visuales, lo que conduce a una mayor precisión en la respuesta a preguntas. Los experimentos preliminares en cinco puntos de referencia como MMLongBench y LongDocURL demuestran la efectividad de nuestro MDocAgent, logrando una mejora promedio del 12.1% en comparación con el método más avanzado actual. Este trabajo contribuye al desarrollo de sistemas DocQA más robustos y completos, capaces de manejar las complejidades de los documentos del mundo real que contienen información textual y visual rica. Nuestros datos y código están disponibles en https://github.com/aiming-lab/MDocAgent.
English
Document Question Answering (DocQA) is a very common task. Existing methods
using Large Language Models (LLMs) or Large Vision Language Models (LVLMs) and
Retrieval Augmented Generation (RAG) often prioritize information from a single
modal, failing to effectively integrate textual and visual cues. These
approaches struggle with complex multi-modal reasoning, limiting their
performance on real-world documents. We present MDocAgent (A Multi-Modal
Multi-Agent Framework for Document Understanding), a novel RAG and multi-agent
framework that leverages both text and image. Our system employs five
specialized agents: a general agent, a critical agent, a text agent, an image
agent and a summarizing agent. These agents engage in multi-modal context
retrieval, combining their individual insights to achieve a more comprehensive
understanding of the document's content. This collaborative approach enables
the system to synthesize information from both textual and visual components,
leading to improved accuracy in question answering. Preliminary experiments on
five benchmarks like MMLongBench, LongDocURL demonstrate the effectiveness of
our MDocAgent, achieve an average improvement of 12.1% compared to current
state-of-the-art method. This work contributes to the development of more
robust and comprehensive DocQA systems capable of handling the complexities of
real-world documents containing rich textual and visual information. Our data
and code are available at https://github.com/aiming-lab/MDocAgent.Summary
AI-Generated Summary