Vote-in-Context: VLMs als Zero-Shot-Rank-Fuser nutzbar machen
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
papers.authors: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
papers.abstract
Im Bereich des Retrievals ist die Fusion von Kandidaten aus heterogenen Retrieval-Systemen eine langjährige Herausforderung, insbesondere für komplexe, multimodale Daten wie Videos. Während typische Fusionstechniken trainierungsfrei sind, stützen sie sich ausschließlich auf Rang- oder Score-Signale und ignorieren die Repräsentationen der Kandidaten. Diese Arbeit stellt Vote-in-Context (ViC) vor, einen generalisierten, trainierungsfreien Rahmen, der Listen-weises Re-Ranking und Fusion als Zero-Shot Reasoning-Aufgabe für ein Vision-Language-Modell (VLM) neu konzipiert. Die zentrale Erkenntnis besteht darin, sowohl Inhaltsbeweise als auch Retriever-Metadaten direkt im Prompt des VLMs zu serialisieren, wodurch das Modell adaptiv den Konsens der Retriever gegen visuell-linguistische Inhalte abwägen kann. Wir demonstrieren die Allgemeingültigkeit dieses Rahmens, indem wir ihn auf den anspruchsvollen Bereich des cross-modalen Video-Retrievals anwenden. Zu diesem Zweck führen wir das S-Grid ein, eine kompakte Serialisierungsmap, die jedes Video als Bildraster darstellt, optional ergänzt durch Untertitel, um Listen-weises Reasoning über Videokandidaten zu ermöglichen. ViC wird sowohl als Single-List-Re-Ranker evaluiert, wo es die Präzision einzelner Retriever drastisch verbessert, als auch als Ensemble-Fuser, wo es konsistent starke Baselines wie CombSUM übertrifft. Über Video-Retrieval-Benchmarks hinweg, einschließlich ActivityNet und VATEX, etabliert der Rahmen eine neue state-of-the-art Zero-Shot-Retrieval-Leistung, was seine Wirksamkeit bei der Verarbeitung komplexer visueller und temporaler Signale neben Text demonstriert. In Zero-Shot-Szenarien erreicht ViC Recall@1-Werte von 87,1 % (t2v) / 89,0 % (v2t) auf MSR-VTT und 99,6 % (v2t) auf VATEX, was massiven Gewinnen von bis zu +40 Recall@1 gegenüber vorherigen state-of-the-art Baselines entspricht. Wir präsentieren ViC als ein einfaches, reproduzierbares und hocheffektives Rezept, um moderne VLMs in leistungsstarke Zero-Shot-Re-Ranker und Fuser zu verwandeln. Code und Ressourcen sind öffentlich verfügbar unter: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC