Vote-en-Contexte : Transformer les VLM en Fuseurs de Classement Zéro-Shot
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
papers.authors: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
papers.abstract
Dans le domaine de la recherche d'information, la fusion de candidats provenant de systèmes de recherche hétérogènes est un défi de longue date, particulièrement pour des données complexes et multimodales comme les vidéos. Si les techniques de fusion typiques ne nécessitent pas d'entraînement, elles reposent uniquement sur des signaux de classement ou de score, ignorant les représentations des candidats. Ce travail présente Vote-in-Context (ViC), un cadre généralisé et sans entraînement qui repense le reclassement et la fusion de listes comme une tâche de raisonnement à zéro-shot pour un modèle vision-langage (VLM). L'idée centrale est de sérialiser les preuves de contenu et les métadonnées du système de recherche directement dans l'invite du VLM, permettant au modèle de pondérer de manière adaptive le consensus des systèmes de recherche par rapport au contenu visuel et linguistique. Nous démontrons la généralité de ce cadre en l'appliquant au domaine difficile de la recherche vidéo cross-modale. À cette fin, nous introduisons le S-Grid, une carte de sérialisation compacte qui représente chaque vidéo sous forme de grille d'images, éventuellement associée à des sous-titres pour permettre un raisonnement de liste sur les candidats vidéo. ViC est évalué à la fois comme reclassificateur de liste unique, où il améliore considérablement la précision des systèmes de recherche individuels, et comme système de fusion par ensemble, où il surpasse constamment des bases de référence solides comme CombSUM. Sur des benchmarks de recherche vidéo incluant ActivityNet et VATEX, le cadre établit de nouvelles performances de pointe en recherche à zéro-shot, démontrant son efficacité à traiter des signaux visuels et temporels complexes aux côtés du texte. En environnement zéro-shot, ViC atteint des scores Rappel@1 de 87,1 % (t2v) / 89,0 % (v2t) sur MSR-VTT et 99,6 % (v2t) sur VATEX, représentant des gains massifs allant jusqu'à +40 points de Rappel@1 par rapport aux précédentes bases de référence de pointe. Nous présentons ViC comme une méthode simple, reproductible et très efficace pour transformer les VLM modernes en puissants outils de reclassement et de fusion à zéro-shot. Le code et les ressources sont disponibles publiquement à l'adresse : https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC