ChatPaper.aiChatPaper

V-Retriever: ユニバーサルマルチモーダル検索のための証拠駆動型エージェント推論

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

February 5, 2026
著者: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は近年、ユニバーサルなマルチモーダル検索に応用され、連鎖的思考(CoT)推論による候補の再ランキング精度向上が図られている。しかし、既存手法は依然として言語主導が中心であり、静的な視覚符号化に依存し、細粒度の視覚的証拠を能動的に検証する能力を欠くため、視覚的に曖昧な場合に推測に依存した推論が生じやすい。本論文では、マルチモーダル検索を視覚的検証に基づくエージェント型推論プロセスとして再定義する、証拠駆動型検索フレームワーク「V-Retriever」を提案する。V-RetrieverはMLLMが外部視覚ツールを介して推論途中で選択的に視覚的証拠を取得し、仮説生成と対象を絞った視覚的検証を交互に行うマルチモーダル交差推論を実現する。このような証拠収集型検索エージェントを訓練するため、教師あり推論活性化、反駁に基づく精緻化、証拠整合性目標による強化学習を組み合わせたカリキュラム学習戦略を採用する。複数のマルチモーダル検索ベンチマークにおける実験により、検索精度(平均23.0%向上)、知覚駆動型推論の信頼性、一般化性能において一貫した改善を実証した。
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.
PDF72February 7, 2026