Voto en Contexto: Convertir a los VLM en Fusionadores de Clasificación de Cero Disparos
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
Autores: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
Resumen
En el ámbito de la recuperación de información, la fusión de candidatos procedentes de recuperadores heterogéneos es un desafío de larga data, particularmente para datos complejos y multimodales como los vídeos. Si bien las técnicas de fusión típicas no requieren entrenamiento, se basan únicamente en señales de ranking o puntuación, ignorando las representaciones de los candidatos. Este trabajo presenta Vote-in-Context (ViC), un marco generalizado y sin entrenamiento que replantea la rerordenación y fusión a nivel de lista como una tarea de razonamiento de cero disparos para un Modelo de Visión y Lenguaje (VLM). La idea central es serializar tanto la evidencia de contenido como los metadatos del recuperador directamente dentro del prompt del VLM, permitiendo que el modelo pondere de forma adaptativa el consenso del recuperador frente al contenido visual-lingüístico. Demostramos la generalidad de este marco aplicándolo al dominio desafiante de la recuperación de vídeos cross-modal. Para ello, introducimos S-Grid, un mapa de serialización compacto que representa cada vídeo como una cuadrícula de imágenes, opcionalmente acompañada de subtítulos para permitir el razonamiento a nivel de lista sobre candidatos de vídeo. ViC se evalúa tanto como un rerordenador de lista única, donde mejora drásticamente la precisión de los recuperadores individuales, como como un fusionador por ensamblado, donde supera consistentemente líneas base sólidas como CombSUM. En benchmarks de recuperación de vídeos que incluyen ActivityNet y VATEX, el marco establece un nuevo estado del arte en rendimiento de recuperación de cero disparos, demostrando su eficacia para manejar señales visuales y temporales complejas junto con texto. En configuraciones de cero disparos, ViC logra puntuaciones Recall@1 del 87.1% (t2v) / 89.0% (v2t) en MSR-VTT y del 99.6% (v2t) en VATEX, lo que representa ganancias masivas de hasta +40 puntos en Recall@1 sobre los anteriores estados del arte. Presentamos ViC como una receta simple, reproducible y altamente efectiva para convertir los VLMs modernos en poderosos rerordenadores y fusionadores de cero disparos. El código y los recursos están disponibles públicamente en: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC