투표-인-컨텍스트: 시각언어모델을 제로샷 순위 융합기로 전환하기
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
저자: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
초록
검색 분야에서 이질적 검색기로부터 후보를 융합하는 것은 특히 비디오와 같은 복잡한 다중 모달 데이터의 경우 오랜 과제로 남아있습니다. 일반적인 융합 기법은 학습이 필요하지 않지만 순위나 점수 신호에만 의존하여 후보의 표현을 무시합니다. 본 연구에서는 Vote-in-Context(ViC)를 소개합니다. 이는 목록 단계 재순위화 및 융합을 Vision-Language Model(VLM)의 제로샷 추론 과제로 재구성하는 일반화된 학습 불필요 프레임워크입니다. 핵심 통찰은 콘텐츠 증거와 검색기 메타데이터를 VLM의 프롬프트 내에서 직접 직렬화하여 모델이 시각-언어 콘텐츠에 대한 검색기 간 합의를 적응적으로 가중치를 부여할 수 있도록 하는 것입니다. 우리는 이 프레임워크의 일반성을 입증하기 위해 크로스 모달 비디오 검색이라는 도전적인 분야에 적용합니다. 이를 위해 S-Grid를 도입했는데, 이는 각 비디오를 이미지 그리드로 표현하는 컴팩트한 직렬화 맵으로, 선택적으로 자막과 결합되어 비디오 후보에 대한 목록 단계 추론을 가능하게 합니다. ViC는 단일 목록 재순위기로 평가 시 개별 검색기의 정밀도를 극적으로 향상시키며, 앙상블 융합기로 평가 시 CombSUM과 같은 강력한 베이스라인을 꾸준히 능가합니다. ActivityNet 및 VATEX를 포함한 비디오 검색 벤치마크 전반에 걸쳐, 이 프레임워크는 텍스트와 함께 복잡한 시각 및 시간적 신호를 효과적으로 처리하는 능력을 입증하며 새로운 최첨단 제로샷 검색 성능을 확립합니다. 제로샷 설정에서 ViC는 MSR-VTT에서 87.1%(t2v) / 89.0%(v2t), VATEX에서 99.6%(v2t)의 Recall@1 점수를 달성하여 기존 최첨단 베이스라인 대비 최대 +40 Recall@1이라는 엄청난 성능 향상을 보여줍니다. 우리는 ViC를 현대적인 VLM을 강력한 제로샷 재순위기 및 융합기로 전환하는 간단하고 재현 가능하며 매우 효과적인 방법론으로 제시합니다. 코드와 리소스는 다음에서 공개적으로 이용 가능합니다: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC