Voto-em-Contexto: Transformando VLMs em Fusores de Classificação Zero-Shot
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
Autores: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
Resumo
No domínio da recuperação de informação, a fusão de candidatos proveniente de recuperadores heterogéneos é um desafio de longa data, particularmente para dados complexos e multimodais, como vídeos. Embora as técnicas típicas de fusão não requeiram treino (training-free), elas dependem exclusivamente de sinais de classificação (rank) ou pontuação (score), desconsiderando as representações dos candidatos. Este trabalho introduz o Vote-in-Context (ViC), um framework generalizado e sem necessidade de treino que repensa o reranking e a fusão a nível de lista (list-wise) como uma tarefa de raciocínio de zero-shot para um Modelo de Visão e Linguagem (Vision-Language Model - VLM). A perceção fundamental é serializar tanto a evidência de conteúdo como os metadados do recuperador diretamente no prompt do VLM, permitindo que o modelo pondere adaptativamente o consenso do recuperador face ao conteúdo visual-linguístico. Demonstramos a generalidade deste framework aplicando-o ao domínio desafiador da recuperação de vídeo cross-modal. Para tal, introduzimos o S-Grid, um mapa de serialização compacto que representa cada vídeo como uma grelha de imagens, opcionalmente emparelhada com legendas (subtitles) para permitir o raciocínio a nível de lista sobre candidatos de vídeo. O ViC é avaliado tanto como um reranker de lista única, onde melhora drasticamente a precisão de recuperadores individuais, como como um fusor de ensemble, onde supera consistentemente baselines fortes como o CombSUM. Através de benchmarks de recuperação de vídeo, incluindo ActivityNet e VATEX, o framework estabelece um novo estado da arte em desempenho de recuperação zero-shot, demonstrando a sua eficácia no tratamento de sinais visuais e temporais complexos juntamente com texto. Em configurações zero-shot, o ViC atinge pontuações Recall@1 de 87,1% (t2v) / 89,0% (v2t) no MSR-VTT e 99,6% (v2t) no VATEX, representando ganhos massivos de até +40 em Recall@1 sobre os baselines anteriores do estado da arte. Apresentamos o ViC como uma receita simples, reproduzível e altamente eficaz para transformar VLMs modernos em poderosos rerankers e fusores de zero-shot. O código e os recursos estão publicamente disponíveis em: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC