ChatPaper.aiChatPaper

ViDoRAG: Generación Aumentada por Recuperación de Documentos Visuales mediante Agentes de Razonamiento Iterativo Dinámico

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

February 25, 2025
Autores: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI

Resumen

Comprender la información de documentos visualmente ricos sigue siendo un desafío significativo para los métodos tradicionales de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Los benchmarks existentes se centran predominantemente en la respuesta a preguntas basadas en imágenes (QA), pasando por alto los desafíos fundamentales de la recuperación eficiente, la comprensión y el razonamiento dentro de documentos visuales densos. Para cerrar esta brecha, presentamos ViDoSeek, un nuevo conjunto de datos diseñado para evaluar el rendimiento de RAG en documentos visualmente ricos que requieren razonamiento complejo. Basándonos en él, identificamos limitaciones clave en los enfoques actuales de RAG: (i) los métodos de recuperación puramente visuales tienen dificultades para integrar eficazmente tanto las características textuales como las visuales, y (ii) los enfoques anteriores a menudo asignan un número insuficiente de tokens de razonamiento, limitando su efectividad. Para abordar estos desafíos, proponemos ViDoRAG, un novedoso marco de RAG multiagente diseñado para el razonamiento complejo en documentos visuales. ViDoRAG emplea una estrategia híbrida basada en Modelos de Mezcla Gaussiana (GMM) para manejar eficazmente la recuperación multimodal. Para potenciar aún más las capacidades de razonamiento del modelo, introducimos un flujo de trabajo iterativo de agentes que incorpora exploración, resumen y reflexión, proporcionando un marco para investigar la escalabilidad en tiempo de prueba en dominios de RAG. Experimentos extensivos en ViDoSeek validan la efectividad y generalización de nuestro enfoque. Notablemente, ViDoRAG supera a los métodos existentes en más de un 10% en el competitivo benchmark de ViDoSeek.
English
Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

Summary

AI-Generated Summary

PDF202March 3, 2025