ViDoRAG: Generazione Aumentata dal Recupero di Documenti Visivi tramite Agenti di Ragionamento Iterativo Dinamico

Abstract

Comprendere le informazioni da documenti visivamente ricchi rimane una sfida significativa per i tradizionali metodi di Generazione Aumentata dal Recupero (RAG). Gli attuali benchmark si concentrano principalmente su domande e risposte (QA) basate su immagini, trascurando le sfide fondamentali del recupero efficiente, della comprensione e del ragionamento all'interno di documenti visivi densi. Per colmare questa lacuna, introduciamo ViDoSeek, un nuovo dataset progettato per valutare le prestazioni RAG su documenti visivamente ricchi che richiedono un ragionamento complesso. Sulla base di esso, identifichiamo le principali limitazioni degli approcci RAG attuali: (i) i metodi di recupero puramente visivi faticano a integrare efficacemente sia le caratteristiche testuali che quelle visive, e (ii) gli approcci precedenti spesso allocano un numero insufficiente di token di ragionamento, limitandone l'efficacia. Per affrontare queste sfide, proponiamo ViDoRAG, un nuovo framework RAG multi-agente progettato per il ragionamento complesso su documenti visivi. ViDoRAG utilizza una strategia ibrida basata su Modelli a Mistura Gaussiana (GMM) per gestire efficacemente il recupero multi-modale. Per ulteriormente stimolare le capacità di ragionamento del modello, introduciamo un flusso di lavoro iterativo degli agenti che incorpora esplorazione, riepilogo e riflessione, fornendo un framework per investigare lo scaling al momento del test nei domini RAG. Esperimenti estensivi su ViDoSeek convalidano l'efficacia e la generalizzazione del nostro approccio. In particolare, ViDoRAG supera i metodi esistenti di oltre il 10% sul benchmark competitivo ViDoSeek.

English

Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

ViDoRAG: Generazione Aumentata dal Recupero di Documenti Visivi tramite Agenti di Ragionamento Iterativo Dinamico

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

Abstract

Support