ChatPaper.aiChatPaper

ViDoRAG : Génération Augmentée par Récupération de Documents Visuels via des Agents de Raisonnement Itératif Dynamique

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

February 25, 2025
Auteurs: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI

Résumé

Comprendre les informations à partir de documents visuellement riches reste un défi majeur pour les méthodes traditionnelles de Génération Augmentée par Récupération (RAG). Les benchmarks existants se concentrent principalement sur le question-réponse (QA) basé sur des images, négligeant les défis fondamentaux de la récupération efficace, de la compréhension et du raisonnement au sein de documents visuels denses. Pour combler cette lacune, nous introduisons ViDoSeek, un nouveau jeu de données conçu pour évaluer les performances des RAG sur des documents visuellement riches nécessitant un raisonnement complexe. Sur cette base, nous identifions les principales limites des approches RAG actuelles : (i) les méthodes de récupération purement visuelles peinent à intégrer efficacement les caractéristiques textuelles et visuelles, et (ii) les approches précédentes allouent souvent un nombre insuffisant de tokens de raisonnement, limitant ainsi leur efficacité. Pour relever ces défis, nous proposons ViDoRAG, un nouveau cadre RAG multi-agents conçu pour le raisonnement complexe sur des documents visuels. ViDoRAG utilise une stratégie hybride basée sur un modèle de mélange gaussien (GMM) pour gérer efficacement la récupération multi-modale. Pour approfondir les capacités de raisonnement du modèle, nous introduisons un workflow itératif d'agents intégrant l'exploration, la synthèse et la réflexion, offrant ainsi un cadre pour étudier la mise à l'échelle en temps de test dans les domaines RAG. Des expériences approfondies sur ViDoSeek valident l'efficacité et la généralisation de notre approche. Notamment, ViDoRAG surpasse les méthodes existantes de plus de 10 % sur le benchmark compétitif ViDoSeek.
English
Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

Summary

AI-Generated Summary

PDF202March 3, 2025