ViDoRAG: Visueel Document Retrieval-Augmented Generation via Dynamische Iteratieve Redeneeragenten

Samenvatting

Het begrijpen van informatie uit visueel rijke documenten blijft een grote uitdaging voor traditionele Retrieval-Augmented Generation (RAG)-methoden. Bestaande benchmarks richten zich voornamelijk op beeldgebaseerde vraag-antwoordtaken (QA), waarbij de fundamentele uitdagingen van efficiënte retrieval, begrip en redeneren binnen dichte visuele documenten over het hoofd worden gezien. Om deze kloof te overbruggen, introduceren we ViDoSeek, een nieuwe dataset ontworpen om de RAG-prestaties te evalueren op visueel rijke documenten die complexe redenering vereisen. Op basis hiervan identificeren we belangrijke beperkingen in huidige RAG-benaderingen: (i) puur visuele retrievamethode hebben moeite om zowel tekstuele als visuele kenmerken effectief te integreren, en (ii) eerdere benaderingen reserveren vaak onvoldoende redeneertokens, wat hun effectiviteit beperkt. Om deze uitdagingen aan te pakken, stellen we ViDoRAG voor, een nieuw multi-agent RAG-framework dat is toegesneden op complexe redenering over visuele documenten. ViDoRAG maakt gebruik van een hybride strategie gebaseerd op een Gaussian Mixture Model (GMM) om multimodale retrieval effectief te hanteren. Om de redeneercapaciteiten van het model verder te stimuleren, introduceren we een iteratief agentwerkproces dat exploratie, samenvatting en reflectie omvat, wat een raamwerk biedt voor het onderzoeken van testtijd-schaling in RAG-domeinen. Uitgebreide experimenten op ViDoSeek valideren de effectiviteit en generalisatie van onze aanpak. Opmerkelijk is dat ViDoRAG bestaande methoden met meer dan 10% overtreft op de competitieve ViDoSeek-benchmark.

English

Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

ViDoRAG: Visueel Document Retrieval-Augmented Generation via Dynamische Iteratieve Redeneeragenten

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

Samenvatting

Support