ChatPaper.aiChatPaper

V-Retriever: Evidenzbasierte agentenbasierte Argumentation für universelles multimodales Retrieval

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

February 5, 2026
papers.authors: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) wurden in letzter Zeit für die universelle multimodale Retrieval-Aufgabe eingesetzt, wobei Chain-of-Thought (CoT)-Reasoning die Neusortierung von Kandidaten verbessert. Bestehende Ansätze bleiben jedoch weitgehend sprachgesteuert, stützen sich auf statische visuelle Encodings und verfügen nicht über die Fähigkeit, feinkörnige visuelle Evidenz aktiv zu überprüfen, was häufig zu spekulativem Reasoning in visuell mehrdeutigen Fällen führt. Wir schlagen V-Retriever vor, einen evidenzgesteuerten Retrieval-Rahmen, der multimodales Retrieval als einen agentenbasierten Reasoning-Prozess reformuliert, der in visueller Inspektion verankert ist. V-Retriever ermöglicht es einem MLLM, während des Reasoning-Prozesses selektiv visuelle Evidenz über externe visuelle Werkzeuge zu erwerben und so einen multimodalen, verschachtelten Reasoning-Prozess durchzuführen, der zwischen Hypothesengenerierung und gezielter visueller Verifikation abwechselt. Um einen solchen evidenzsammelnden Retrieval-Agenten zu trainieren, setzen wir eine curriculum-basierte Lernstrategie ein, die überwachte Reasoning-Aktivierung, abstimmungsbasierte Verfeinerung und Reinforcement-Learning mit einem evidenzausgerichteten Ziel kombiniert. Experimente über mehrere multimodale Retrieval-Benchmarks hinweg demonstrieren konsistente Verbesserungen bei der Retrieval-Genauigkeit (durchschnittlich um 23,0 %), der wahrnehmungsgesteuerten Reasoning-Zuverlässigkeit und der Generalisierungsfähigkeit.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.
PDF72February 7, 2026