V-Retrver : Raisonnement agentique fondé sur des preuves pour la recherche multimodale universelle
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
February 5, 2026
papers.authors: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI
papers.abstract
Les modèles de grands langages multimodaux (MLLMs) ont récemment été appliqués à la recherche multimodale universelle, où le raisonnement en chaîne de pensée (CoT) améliore le reranking des candidats. Cependant, les approches existantes restent largement pilotées par le langage, reposant sur des encodages visuels statiques et manquant de capacité à vérifier activement les preuves visuelles granulaires, ce qui conduit souvent à un raisonnement spéculatif dans les cas visuellement ambigus. Nous proposons V-Retrver, un cadre de recherche fondé sur les preuves qui reformule la recherche multimodale comme un processus de raisonnement agentique ancré dans l'inspection visuelle. V-Retrver permet à un MLLM d'acquérir sélectivement des preuves visuelles durant son raisonnement via des outils visuels externes, réalisant un processus de raisonnement entrelacé multimodal qui alterne entre génération d'hypothèses et vérification visuelle ciblée. Pour entraîner un tel agent de recherche collectant des preuves, nous adoptons une stratégie d'apprentissage par curriculum combinant une activation supervisée du raisonnement, un raffinement par rejet et un apprentissage par renforcement avec un objectif aligné sur les preuves. Les expériences sur plusieurs benchmarks de recherche multimodale démontrent des améliorations constantes en précision de recherche (avec +23,0% en moyenne), en fiabilité du raisonnement perceptif et en généralisation.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.