MDocAgent: Un Marco de Multiagentes Multimodal para la Comprensión de Documentos

Resumen

La Respuesta a Preguntas sobre Documentos (Document Question Answering, DocQA) es una tarea muy común. Los métodos existentes que utilizan Modelos de Lenguaje de Gran Escala (Large Language Models, LLMs) o Modelos de Lenguaje y Visión de Gran Escala (Large Vision Language Models, LVLMs) junto con Generación Aumentada por Recuperación (Retrieval Augmented Generation, RAG) suelen priorizar la información de una sola modalidad, sin integrar de manera efectiva las señales textuales y visuales. Estos enfoques tienen dificultades con el razonamiento multimodal complejo, lo que limita su rendimiento en documentos del mundo real. Presentamos MDocAgent (Un Marco de Multiagentes Multimodal para la Comprensión de Documentos), un novedoso marco RAG y multiagente que aprovecha tanto el texto como la imagen. Nuestro sistema emplea cinco agentes especializados: un agente general, un agente crítico, un agente de texto, un agente de imagen y un agente de resumen. Estos agentes participan en la recuperación de contexto multimodal, combinando sus conocimientos individuales para lograr una comprensión más completa del contenido del documento. Este enfoque colaborativo permite al sistema sintetizar información tanto de los componentes textuales como visuales, lo que conduce a una mayor precisión en la respuesta a preguntas. Los experimentos preliminares en cinco puntos de referencia como MMLongBench y LongDocURL demuestran la efectividad de nuestro MDocAgent, logrando una mejora promedio del 12.1% en comparación con el método más avanzado actual. Este trabajo contribuye al desarrollo de sistemas DocQA más robustos y completos, capaces de manejar las complejidades de los documentos del mundo real que contienen información textual y visual rica. Nuestros datos y código están disponibles en https://github.com/aiming-lab/MDocAgent.

English

Document Question Answering (DocQA) is a very common task. Existing methods using Large Language Models (LLMs) or Large Vision Language Models (LVLMs) and Retrieval Augmented Generation (RAG) often prioritize information from a single modal, failing to effectively integrate textual and visual cues. These approaches struggle with complex multi-modal reasoning, limiting their performance on real-world documents. We present MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding), a novel RAG and multi-agent framework that leverages both text and image. Our system employs five specialized agents: a general agent, a critical agent, a text agent, an image agent and a summarizing agent. These agents engage in multi-modal context retrieval, combining their individual insights to achieve a more comprehensive understanding of the document's content. This collaborative approach enables the system to synthesize information from both textual and visual components, leading to improved accuracy in question answering. Preliminary experiments on five benchmarks like MMLongBench, LongDocURL demonstrate the effectiveness of our MDocAgent, achieve an average improvement of 12.1% compared to current state-of-the-art method. This work contributes to the development of more robust and comprehensive DocQA systems capable of handling the complexities of real-world documents containing rich textual and visual information. Our data and code are available at https://github.com/aiming-lab/MDocAgent.

MDocAgent: Un Marco de Multiagentes Multimodal para la Comprensión de Documentos

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

Resumen

Support