Voto-in-Contesto: Trasformare i VLM in Fusori di Classifica a Zero-Shot
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
Autori: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
Abstract
Nel campo del retrieval, la fusione di candidati provenienti da retriever eterogenei rappresenta una sfida di lunga data, in particolare per dati complessi e multimodali come i video. Sebbene le tecniche di fusione tipiche non richiedano addestramento, si basano esclusivamente su segnali di ranking o punteggio, trascurando le rappresentazioni dei candidati. Questo lavoro introduce Vote-in-Context (ViC), un framework generalizzato e senza addestramento che ripensa il reranking e la fusione di tipo list-wise come un compito di reasoning zero-shot per un Modello Visione-Linguaggio (VLM). L'intuizione fondamentale è serializzare sia l'evidenza contenutistica che i metadati del retriever direttamente all'interno del prompt del VLM, consentendo al modello di ponderare in modo adattivo il consenso del retriever rispetto al contenuto visivo-linguistico. Dimostriamo la generalità di questo framework applicandolo al dominio impegnativo del video retrieval cross-modale. A tal fine, introduciamo la S-Grid, una mappa di serializzazione compatta che rappresenta ogni video come una griglia di immagini, eventualmente associata a sottotitoli per abilitare il reasoning list-wise sui candidati video. ViC viene valutato sia come reranker per singola lista, dove migliora drasticamente la precisione dei singoli retriever, sia come fusore di ensemble, dove supera costantemente baseline solidi come CombSUM. Su benchmark di video retrieval inclusi ActivityNet e VATEX, il framework stabilisce nuove prestazioni state-of-the-art per il retrieval zero-shot, dimostrando la sua efficacia nella gestione di segnali visivi e temporali complessi insieme al testo. In contesti zero-shot, ViC raggiunge punteggi Recall@1 dell'87,1% (t2v) / 89,0% (v2t) su MSR-VTT e del 99,6% (v2t) su VATEX, rappresentando guadagni massivi fino a +40 punti Recall@1 rispetto ai precedenti baseline state-of-the-art. Presentiamo ViC come una ricetta semplice, riproducibile e altamente efficace per trasformare i VLM moderni in potenti strumenti di reranking e fusione zero-shot. Codice e risorse sono disponibili pubblicamente all'indirizzo: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC