V-Retriever: 증거 기반 에이전트 추론을 통한 범용 멀티모달 검색
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
February 5, 2026
저자: Dongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)이 최근 범용 멀티모달 검색에 적용되면서, 사고 연쇄(CoT) 추론이 후보 재순위화 성능을 향상시키고 있습니다. 그러나 기존 접근법은 여전히 언어 중심에 머물러 있으며, 정적인 시각 인코딩에 의존하고 세밀한 시각적 증거를 능동적으로 검증할 수 있는 능력이 부족해 시각적으로 모호한 경우에 추측성 추론으로 이어지는 경우가 많습니다. 우리는 멀티모달 검색을 시각적 검증에 기반한 에이전트 추론 과정으로 재구성하는 증거 주도 검색 프레임워크인 V-Retriever를 제안합니다. V-Retriever는 MLLM이 외부 시각 도구를 통해 추론 과정에서 선택적으로 시각적 증거를 획득하고, 가설 생성과 표적 시각 검증을 번갈아 수행하는 멀티모달 교차 추론 과정을 실행할 수 있게 합니다. 이러한 증거 수집 검색 에이전트를 훈련하기 위해 우리는 지도 추론 활성화, 기각 기반 정제, 그리고 증거-정렬 목표를 활용한 강화 학습을 결합한 교과 과정 기반 학습 전략을 채택했습니다. 여러 멀티모달 검색 벤치마크에서의 실험을 통해 검색 정확도(평균 23.0% 향상), 인식 기반 추론 신뢰도 및 일반화 성능에서 지속적인 향상을 입증했습니다.
English
Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.