ChatPaper.aiChatPaper

V-Retrver: Raciocínio Agente Orientado por Evidências para Recuperação Multimodal Universal

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

February 5, 2026
Autores: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido recentemente aplicados na recuperação multimodal universal, onde o raciocínio em Cadeia de Pensamento (CoT) melhora o rerranqueamento de candidatos. No entanto, as abordagens existentes permanecem amplamente orientadas pela linguagem, dependendo de codificações visuais estáticas e carecendo da capacidade de verificar ativamente evidências visuais de granularidade fina, o que frequentemente leva a raciocínios especulativos em casos visualmente ambíguos. Propomos o V-Retrver, uma estrutura de recuperação baseada em evidências que reformula a recuperação multimodal como um processo de raciocínio agentivo fundamentado na inspeção visual. O V-Retrver permite que um MLLM adquira seletivamente evidências visuais durante o raciocínio por meio de ferramentas visuais externas, executando um processo de raciocínio intercalado multimodal que alterna entre a geração de hipóteses e a verificação visual direcionada. Para treinar tal agente de recuperação com coleta de evidências, adotamos uma estratégia de aprendizagem baseada em currículo, combinando ativação de raciocínio supervisionada, refinamento baseado em rejeição e aprendizagem por reforço com um objetivo alinhado a evidências. Experimentos em várias bases de referência de recuperação multimodal demonstram melhorias consistentes na precisão da recuperação (com melhorias de 23,0% em média), confiabilidade do raciocínio orientado pela percepção e generalização.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.
PDF73February 7, 2026