ViDoRAG: Visuelles Dokumenten-Retrieval-Augmentierte Generierung durch dynamische iterative Reasoning-Agenten

papers.abstract

Das Verständnis von Informationen aus visuell reichhaltigen Dokumenten bleibt eine bedeutende Herausforderung für traditionelle Retrieval-Augmented Generation (RAG)-Methoden. Bestehende Benchmarks konzentrieren sich überwiegend auf bildbasierte Frage-Antwort-Systeme (QA) und übersehen dabei die grundlegenden Herausforderungen der effizienten Retrieval, des Verständnisses und des logischen Denkens innerhalb von dichten visuellen Dokumenten. Um diese Lücke zu schließen, führen wir ViDoSeek ein, einen neuartigen Datensatz, der entwickelt wurde, um die RAG-Leistung bei visuell reichhaltigen Dokumenten, die komplexes logisches Denken erfordern, zu bewerten. Basierend darauf identifizieren wir wesentliche Einschränkungen in aktuellen RAG-Ansätzen: (i) rein visuelle Retrieval-Methoden haben Schwierigkeiten, sowohl textuelle als auch visuelle Merkmale effektiv zu integrieren, und (ii) frühere Ansätze weisen oft unzureichende Denk-Tokens zu, was ihre Effektivität einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir ViDoRAG vor, einen neuartigen Multi-Agenten-RAG-Rahmen, der speziell für komplexes logisches Denken über visuelle Dokumente entwickelt wurde. ViDoRAG verwendet eine hybride Strategie basierend auf einem Gaußschen Mischmodell (GMM), um das multi-modale Retrieval effektiv zu handhaben. Um die Denkfähigkeiten des Modells weiter zu fördern, führen wir einen iterativen Agenten-Workflow ein, der Exploration, Zusammenfassung und Reflexion umfasst, und bieten so einen Rahmen für die Untersuchung von Testzeit-Skalierung in RAG-Domänen. Umfangreiche Experimente auf ViDoSeek bestätigen die Effektivität und Generalisierbarkeit unseres Ansatzes. Insbesondere übertrifft ViDoRAG bestehende Methoden um über 10 % auf dem wettbewerbsfähigen ViDoSeek-Benchmark.

English

Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

ViDoRAG: Visuelles Dokumenten-Retrieval-Augmentierte Generierung durch dynamische iterative Reasoning-Agenten

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

papers.abstract

Support