V-Retrver: Bewijsgestuurd Agentisch Redeneren voor Universele Multimodale Retrieval
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
February 5, 2026
Auteurs: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) worden recentelijk toegepast op universele multimodale retrievalsystemen, waarbij Chain-of-Thought (CoT)-redenering de herrangschikking van kandidaten verbetert. Bestaande benaderingen blijven echter grotendeels taalgedreven, steunen op statische visuele coderingen en missen het vermogen om actief fijnmazig visueel bewijs te verifiëren, wat vaak leidt tot speculatieve redenering in visueel dubbelzinnige gevallen. Wij stellen V-Retriever voor, een evidence-driven retrievalraamwerk dat multimodale retrieval herformuleert als een agent-gebaseerd redeneerproces, geworteld in visuele inspectie. V-Retriever stelt een MLLM in staat om tijdens het redeneren selectief visueel bewijs te vergaren via externe visuele tools, waarbij een multimodaal, afwisselend redeneerproces wordt uitgevoerd dat wisselt tussen hypothesegeneratie en gerichte visuele verificatie. Om een dergelijke evidence-vergarende retrievalagent te trainen, hanteren we een curriculum-gebaseerde leerstrategie die supervised reasoning-activatie, op afwijzing gebaseerde verfijning en reinforcement learning combineert met een evidence-afgestemd doel. Experimenten op meerdere multimodale retrievalbenchmarks tonen consistente verbeteringen aan in retrievalnauwkeurigheid (gemiddeld 23,0% verbetering), perceptie-gedreven redeneerbetrouwbaarheid en generalisatie.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.