ViDoRAG: Visuelles Dokumenten-Retrieval-Augmentierte Generierung durch dynamische iterative Reasoning-Agenten
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
February 25, 2025
Autoren: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI
Zusammenfassung
Das Verständnis von Informationen aus visuell reichhaltigen Dokumenten bleibt eine bedeutende Herausforderung für traditionelle Retrieval-Augmented Generation (RAG)-Methoden. Bestehende Benchmarks konzentrieren sich überwiegend auf bildbasierte Frage-Antwort-Systeme (QA) und übersehen dabei die grundlegenden Herausforderungen der effizienten Retrieval, des Verständnisses und des logischen Denkens innerhalb von dichten visuellen Dokumenten. Um diese Lücke zu schließen, führen wir ViDoSeek ein, einen neuartigen Datensatz, der entwickelt wurde, um die RAG-Leistung bei visuell reichhaltigen Dokumenten, die komplexes logisches Denken erfordern, zu bewerten. Basierend darauf identifizieren wir wesentliche Einschränkungen in aktuellen RAG-Ansätzen: (i) rein visuelle Retrieval-Methoden haben Schwierigkeiten, sowohl textuelle als auch visuelle Merkmale effektiv zu integrieren, und (ii) frühere Ansätze weisen oft unzureichende Denk-Tokens zu, was ihre Effektivität einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir ViDoRAG vor, einen neuartigen Multi-Agenten-RAG-Rahmen, der speziell für komplexes logisches Denken über visuelle Dokumente entwickelt wurde. ViDoRAG verwendet eine hybride Strategie basierend auf einem Gaußschen Mischmodell (GMM), um das multi-modale Retrieval effektiv zu handhaben. Um die Denkfähigkeiten des Modells weiter zu fördern, führen wir einen iterativen Agenten-Workflow ein, der Exploration, Zusammenfassung und Reflexion umfasst, und bieten so einen Rahmen für die Untersuchung von Testzeit-Skalierung in RAG-Domänen. Umfangreiche Experimente auf ViDoSeek bestätigen die Effektivität und Generalisierbarkeit unseres Ansatzes. Insbesondere übertrifft ViDoRAG bestehende Methoden um über 10 % auf dem wettbewerbsfähigen ViDoSeek-Benchmark.
English
Understanding information from visually rich documents remains a significant
challenge for traditional Retrieval-Augmented Generation (RAG) methods.
Existing benchmarks predominantly focus on image-based question answering (QA),
overlooking the fundamental challenges of efficient retrieval, comprehension,
and reasoning within dense visual documents. To bridge this gap, we introduce
ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich
documents requiring complex reasoning. Based on it, we identify key limitations
in current RAG approaches: (i) purely visual retrieval methods struggle to
effectively integrate both textual and visual features, and (ii) previous
approaches often allocate insufficient reasoning tokens, limiting their
effectiveness. To address these challenges, we propose ViDoRAG, a novel
multi-agent RAG framework tailored for complex reasoning across visual
documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy
to effectively handle multi-modal retrieval. To further elicit the model's
reasoning capabilities, we introduce an iterative agent workflow incorporating
exploration, summarization, and reflection, providing a framework for
investigating test-time scaling in RAG domains. Extensive experiments on
ViDoSeek validate the effectiveness and generalization of our approach.
Notably, ViDoRAG outperforms existing methods by over 10% on the competitive
ViDoSeek benchmark.Summary
AI-Generated Summary