ViDoRAG: Visueel Document Retrieval-Augmented Generation via Dynamische Iteratieve Redeneeragenten
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
February 25, 2025
Auteurs: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI
Samenvatting
Het begrijpen van informatie uit visueel rijke documenten blijft een grote uitdaging voor traditionele Retrieval-Augmented Generation (RAG)-methoden. Bestaande benchmarks richten zich voornamelijk op beeldgebaseerde vraag-antwoordtaken (QA), waarbij de fundamentele uitdagingen van efficiënte retrieval, begrip en redeneren binnen dichte visuele documenten over het hoofd worden gezien. Om deze kloof te overbruggen, introduceren we ViDoSeek, een nieuwe dataset ontworpen om de RAG-prestaties te evalueren op visueel rijke documenten die complexe redenering vereisen. Op basis hiervan identificeren we belangrijke beperkingen in huidige RAG-benaderingen: (i) puur visuele retrievamethode hebben moeite om zowel tekstuele als visuele kenmerken effectief te integreren, en (ii) eerdere benaderingen reserveren vaak onvoldoende redeneertokens, wat hun effectiviteit beperkt. Om deze uitdagingen aan te pakken, stellen we ViDoRAG voor, een nieuw multi-agent RAG-framework dat is toegesneden op complexe redenering over visuele documenten. ViDoRAG maakt gebruik van een hybride strategie gebaseerd op een Gaussian Mixture Model (GMM) om multimodale retrieval effectief te hanteren. Om de redeneercapaciteiten van het model verder te stimuleren, introduceren we een iteratief agentwerkproces dat exploratie, samenvatting en reflectie omvat, wat een raamwerk biedt voor het onderzoeken van testtijd-schaling in RAG-domeinen. Uitgebreide experimenten op ViDoSeek valideren de effectiviteit en generalisatie van onze aanpak. Opmerkelijk is dat ViDoRAG bestaande methoden met meer dan 10% overtreft op de competitieve ViDoSeek-benchmark.
English
Understanding information from visually rich documents remains a significant
challenge for traditional Retrieval-Augmented Generation (RAG) methods.
Existing benchmarks predominantly focus on image-based question answering (QA),
overlooking the fundamental challenges of efficient retrieval, comprehension,
and reasoning within dense visual documents. To bridge this gap, we introduce
ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich
documents requiring complex reasoning. Based on it, we identify key limitations
in current RAG approaches: (i) purely visual retrieval methods struggle to
effectively integrate both textual and visual features, and (ii) previous
approaches often allocate insufficient reasoning tokens, limiting their
effectiveness. To address these challenges, we propose ViDoRAG, a novel
multi-agent RAG framework tailored for complex reasoning across visual
documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy
to effectively handle multi-modal retrieval. To further elicit the model's
reasoning capabilities, we introduce an iterative agent workflow incorporating
exploration, summarization, and reflection, providing a framework for
investigating test-time scaling in RAG domains. Extensive experiments on
ViDoSeek validate the effectiveness and generalization of our approach.
Notably, ViDoRAG outperforms existing methods by over 10% on the competitive
ViDoSeek benchmark.Summary
AI-Generated Summary