ViDoRAG: Generazione Aumentata dal Recupero di Documenti Visivi tramite Agenti di Ragionamento Iterativo Dinamico
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
February 25, 2025
Autori: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI
Abstract
Comprendere le informazioni da documenti visivamente ricchi rimane una sfida significativa per i tradizionali metodi di Generazione Aumentata dal Recupero (RAG). Gli attuali benchmark si concentrano principalmente su domande e risposte (QA) basate su immagini, trascurando le sfide fondamentali del recupero efficiente, della comprensione e del ragionamento all'interno di documenti visivi densi. Per colmare questa lacuna, introduciamo ViDoSeek, un nuovo dataset progettato per valutare le prestazioni RAG su documenti visivamente ricchi che richiedono un ragionamento complesso. Sulla base di esso, identifichiamo le principali limitazioni degli approcci RAG attuali: (i) i metodi di recupero puramente visivi faticano a integrare efficacemente sia le caratteristiche testuali che quelle visive, e (ii) gli approcci precedenti spesso allocano un numero insufficiente di token di ragionamento, limitandone l'efficacia. Per affrontare queste sfide, proponiamo ViDoRAG, un nuovo framework RAG multi-agente progettato per il ragionamento complesso su documenti visivi. ViDoRAG utilizza una strategia ibrida basata su Modelli a Mistura Gaussiana (GMM) per gestire efficacemente il recupero multi-modale. Per ulteriormente stimolare le capacità di ragionamento del modello, introduciamo un flusso di lavoro iterativo degli agenti che incorpora esplorazione, riepilogo e riflessione, fornendo un framework per investigare lo scaling al momento del test nei domini RAG. Esperimenti estensivi su ViDoSeek convalidano l'efficacia e la generalizzazione del nostro approccio. In particolare, ViDoRAG supera i metodi esistenti di oltre il 10% sul benchmark competitivo ViDoSeek.
English
Understanding information from visually rich documents remains a significant
challenge for traditional Retrieval-Augmented Generation (RAG) methods.
Existing benchmarks predominantly focus on image-based question answering (QA),
overlooking the fundamental challenges of efficient retrieval, comprehension,
and reasoning within dense visual documents. To bridge this gap, we introduce
ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich
documents requiring complex reasoning. Based on it, we identify key limitations
in current RAG approaches: (i) purely visual retrieval methods struggle to
effectively integrate both textual and visual features, and (ii) previous
approaches often allocate insufficient reasoning tokens, limiting their
effectiveness. To address these challenges, we propose ViDoRAG, a novel
multi-agent RAG framework tailored for complex reasoning across visual
documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy
to effectively handle multi-modal retrieval. To further elicit the model's
reasoning capabilities, we introduce an iterative agent workflow incorporating
exploration, summarization, and reflection, providing a framework for
investigating test-time scaling in RAG domains. Extensive experiments on
ViDoSeek validate the effectiveness and generalization of our approach.
Notably, ViDoRAG outperforms existing methods by over 10% on the competitive
ViDoSeek benchmark.Summary
AI-Generated Summary