V-Retrver: Razonamiento Agente Basado en Evidencias para Recuperación Multimodal Universal
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
February 5, 2026
Autores: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se han aplicado recientemente a la recuperación multimodal universal, donde el razonamiento en Cadena de Pensamiento (CoT) mejora la rerrepresentación de candidatos. Sin embargo, los enfoques existentes siguen siendo predominantemente impulsados por el lenguaje, dependen de codificaciones visuales estáticas y carecen de la capacidad de verificar activamente evidencia visual detallada, lo que a menudo conduce a un razonamiento especulativo en casos visualmente ambiguos. Proponemos V-Retrver, un marco de recuperación basado en evidencia que reformula la recuperación multimodal como un proceso de razonamiento agéntico fundamentado en la inspección visual. V-Retrver permite a un MLLM adquirir selectivamente evidencia visual durante el razonamiento mediante herramientas visuales externas, realizando un proceso de razonamiento intercalado multimodal que alterna entre la generación de hipótesis y la verificación visual dirigida. Para entrenar a un agente de recuperación con esta capacidad de recolección de evidencia, adoptamos una estrategia de aprendizaje basada en currículo que combina la activación de razonamiento supervisado, el refinamiento por rechazo y el aprendizaje por refuerzo con un objetivo alineado con la evidencia. Los experimentos en múltiples benchmarks de recuperación multimodal demuestran mejoras consistentes en la precisión de recuperación (con mejoras promedio del 23.0%), la confiabilidad del razonamiento impulsado por la percepción y la generalización.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.