Stemmen-in-Context: Het omvormen van VLMs tot Zero-Shot Rangfusiemodellen
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
Auteurs: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
Samenvatting
In het retrievaldomein vormt het samenvoegen van kandidaten van heterogene retrievers een al lang bestaande uitdaging, vooral voor complexe, multimodale gegevens zoals video's. Terwijl typische fusietechnieken training-vrij zijn, baseren ze zich uitsluitend op rangschikkings- of scoresignalen en negeren ze de representaties van kandidaten. Dit werk introduceert Vote-in-Context (ViC), een gegeneraliseerd, training-vrij framework dat list-wise reranking en fusie herdefinieert als een zero-shot redeneertaak voor een Vision-Language Model (VLM). De kerninzicht is om zowel inhoudelijk bewijs als retriever-metadata rechtstreeks binnen de prompt van het VLM te serialiseren, waardoor het model adaptief de consensus van de retriever kan afwegen tegen visueel-linguïstische inhoud. Wij tonen de generaliteit van dit framework aan door het toe te passen op het uitdagende domein van cross-modale videoretrieval. Hiertoe introduceren we de S-Grid, een compact serialisatiekaart die elke video voorstelt als een beeldrooster, optioneel gekoppeld aan ondertitels om list-wise redeneren over videokandidaten mogelijk te maken. ViC wordt geëvalueerd zowel als een single-list reranker, waarbij het de precisie van individuele retrievers aanzienlijk verbetert, als als een ensemble-fuser, waarbij het consistent sterke baseline-methoden zoals CombSUM overtreft. Over videoretrievalbenchmarks heen, waaronder ActivityNet en VATEX, vestigt het framework een nieuwe state-of-the-art zero-shot retrievalprestatie, wat de effectiviteit aantoont bij het verwerken van complexe visuele en temporele signalen naast tekst. In zero-shot settings behaalt ViC Recall@1-scores van 87,1% (t2v) / 89,0% (v2t) op MSR-VTT en 99,6% (v2t) op VATEX, wat enorme winsten vertegenwoordigt van tot +40 Recall@1 ten opzichte van eerdere state-of-the-art baseline-methoden. Wij presenteren ViC als een eenvoudig, reproduceerbaar en uiterst effectief recept om moderne VLM's om te zetten in krachtige zero-shot rerankers en fusers. Code en bronnen zijn publiekelijk beschikbaar op: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC