ChatPaper.aiChatPaper

ViDoRAG: 動的反復推論エージェントによる視覚的文書検索拡張生成

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

February 25, 2025
著者: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI

要旨

視覚的にリッチなドキュメントからの情報理解は、従来のRetrieval-Augmented Generation(RAG)手法にとって依然として大きな課題である。既存のベンチマークは主に画像ベースの質問応答(QA)に焦点を当てており、高密度な視覚ドキュメント内での効率的な検索、理解、推論という根本的な課題を見落としている。このギャップを埋めるため、我々は複雑な推論を必要とする視覚的にリッチなドキュメントにおけるRAGの性能を評価するための新しいデータセット、ViDoSeekを導入する。これに基づき、現在のRAGアプローチの主要な限界を特定した:(i)純粋に視覚的な検索手法は、テキストと視覚的特徴の両方を効果的に統合することが困難であり、(ii)従来のアプローチはしばしば十分な推論トークンを割り当てず、その有効性を制限している。これらの課題に対処するため、我々は視覚ドキュメントにわたる複雑な推論に特化した新しいマルチエージェントRAGフレームワーク、ViDoRAGを提案する。ViDoRAGは、多モーダル検索を効果的に処理するためにガウス混合モデル(GMM)ベースのハイブリッド戦略を採用している。さらに、モデルの推論能力を引き出すために、探索、要約、反省を組み込んだ反復的なエージェントワークフローを導入し、RAGドメインにおけるテストタイムスケーリングを調査するためのフレームワークを提供する。ViDoSeekでの大規模な実験により、我々のアプローチの有効性と汎用性が検証された。特に、ViDoRAGは競争力のあるViDoSeekベンチマークにおいて既存の手法を10%以上上回る性能を示した。
English
Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

Summary

AI-Generated Summary

PDF202March 3, 2025