Voto en Contexto: Convertir a los VLM en Fusionadores de Clasificación de Cero Disparos

Resumen

En el ámbito de la recuperación de información, la fusión de candidatos procedentes de recuperadores heterogéneos es un desafío de larga data, particularmente para datos complejos y multimodales como los vídeos. Si bien las técnicas de fusión típicas no requieren entrenamiento, se basan únicamente en señales de ranking o puntuación, ignorando las representaciones de los candidatos. Este trabajo presenta Vote-in-Context (ViC), un marco generalizado y sin entrenamiento que replantea la rerordenación y fusión a nivel de lista como una tarea de razonamiento de cero disparos para un Modelo de Visión y Lenguaje (VLM). La idea central es serializar tanto la evidencia de contenido como los metadatos del recuperador directamente dentro del prompt del VLM, permitiendo que el modelo pondere de forma adaptativa el consenso del recuperador frente al contenido visual-lingüístico. Demostramos la generalidad de este marco aplicándolo al dominio desafiante de la recuperación de vídeos cross-modal. Para ello, introducimos S-Grid, un mapa de serialización compacto que representa cada vídeo como una cuadrícula de imágenes, opcionalmente acompañada de subtítulos para permitir el razonamiento a nivel de lista sobre candidatos de vídeo. ViC se evalúa tanto como un rerordenador de lista única, donde mejora drásticamente la precisión de los recuperadores individuales, como como un fusionador por ensamblado, donde supera consistentemente líneas base sólidas como CombSUM. En benchmarks de recuperación de vídeos que incluyen ActivityNet y VATEX, el marco establece un nuevo estado del arte en rendimiento de recuperación de cero disparos, demostrando su eficacia para manejar señales visuales y temporales complejas junto con texto. En configuraciones de cero disparos, ViC logra puntuaciones Recall@1 del 87.1% (t2v) / 89.0% (v2t) en MSR-VTT y del 99.6% (v2t) en VATEX, lo que representa ganancias masivas de hasta +40 puntos en Recall@1 sobre los anteriores estados del arte. Presentamos ViC como una receta simple, reproducible y altamente efectiva para convertir los VLMs modernos en poderosos rerordenadores y fusionadores de cero disparos. El código y los recursos están disponibles públicamente en: https://github.com/mohammad2012191/ViC

English

In the retrieval domain, candidates' fusion from heterogeneous retrievers is a long-standing challenge, particularly for complex, multi-modal data such as videos. While typical fusion techniques are training-free, they rely solely on rank or score signals, disregarding candidates' representations. This work introduces Vote-in-Context (ViC), a generalized, training-free framework that re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a Vision-Language Model (VLM). The core insight is to serialize both content evidence and retriever metadata directly within the VLM's prompt, allowing the model to adaptively weigh retriever consensus against visual-linguistic content. We demonstrate the generality of this framework by applying it to the challenging domain of cross-modal video retrieval. To this end, we introduce the S-Grid, a compact serialization map that represents each video as an image grid, optionally paired with subtitles to enable list-wise reasoning over video candidates. ViC is evaluated both as a single-list reranker, where it dramatically improves the precision of individual retrievers, and as an ensemble fuser, where it consistently outperforms strong baselines like CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the framework establishes new state-of-the-art zero-shot retrieval performance, demonstrating its effectiveness in handling complex visual and temporal signals alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1% (t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive gains of up to +40 Recall@1 over previous state-of-the-art baselines. We present ViC as a simple, reproducible, and highly effective recipe for turning modern VLMs into powerful zero-shot rerankers and fusers. Code and resources are publicly available at: https://github.com/mohammad2012191/ViC

Voto en Contexto: Convertir a los VLM en Fusionadores de Clasificación de Cero Disparos

Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers

Resumen

Support