ChatPaper.aiChatPaper

V-Retriever: Агентное рассуждение на основе доказательств для универсального мультимодального поиска

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

February 5, 2026
Авторы: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI

Аннотация

Мультимодальные большие языковые модели (MБЯМ) недавно начали применяться для универсального мультимодального поиска, где рассуждения по цепочке мыслей (CoT) улучшают повторное ранжирование кандидатов. Однако существующие подходы в значительной степени остаются языково-ориентированными, опираются на статические визуальные представления и не способны активно проверять детальные визуальные свидетельства, что часто приводит к спекулятивным умозаключениям в визуально неоднозначных случаях. Мы предлагаем V-Retriever, доказательно-ориентированную框架 поиска, которая переформулирует мультимодальный поиск как агентный процесс рассуждений, основанный на визуальном анализе. V-Retriever позволяет MБЯМ избирательно получать визуальные свидетельства в процессе рассуждений с помощью внешних визуальных инструментов, выполняя чередующийся мультимодальный процесс рассуждений, который чередует генерацию гипотез и целенаправленную визуальную проверку. Для обучения такого агента поиска, собирающего доказательства, мы применяем стратегию обучения по учебному плану, сочетающую контролируемую активацию рассуждений, уточнение на основе отклонения и обучение с подкреплением с доказательно-выровненной целью. Эксперименты на нескольких наборах данных для мультимодального поиска демонстрируют устойчивое улучшение точности поиска (в среднем на 23.0%), надежности воспринимающих рассуждений и способности к обобщению.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.
PDF72February 7, 2026