V-Retriever: Ragionamento Agente Guidato dalle Evidenze per il Recupero Multimodale Universale

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono stati recentemente applicati al retrieval multimodale universale, dove il ragionamento a Catena del Pensiero (CoT) migliora il riordinamento dei candidati. Tuttavia, gli approcci esistenti rimangono in gran parte guidati dal linguaggio, basandosi su codifiche visive statiche e mancando della capacità di verificare attivamente evidenze visive di fine granularità, il che spesso conduce a ragionamenti speculativi in casi visivamente ambigui. Noi proponiamo V-Retrver, un framework di retrieval guidato dalle evidenze che riformula il retrieval multimodale come un processo di ragionamento agentico basato sull'ispezione visiva. V-Retrver consente a un MLLM di acquisire selettivamente evidenze visive durante il ragionamento tramite strumenti visivi esterni, eseguendo un processo di ragionamento intervallato multimodale che alterna generazione di ipotesi e verifica visiva mirata. Per addestrare un tale agente di retrieval che raccoglie evidenze, adottiamo una strategia di apprendimento basata su un curriculum che combina attivazione supervisionata del ragionamento, raffinamento basato sul rifiuto e apprendimento per rinforzo con un obiettivo allineato alle evidenze. Esperimenti su molteplici benchmark di retrieval multimodale dimostrano miglioramenti consistenti nell'accuratezza del retrieval (con miglioramenti medi del 23.0%), nell'affidabilità del ragionamento guidato dalla percezione e nella generalizzazione.

English

Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.

V-Retriever: Ragionamento Agente Guidato dalle Evidenze per il Recupero Multimodale Universale

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Abstract

Support