Голосование в контексте: преобразование визуально-языковых моделей в ранжирующие системы с нулевым обучением
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
Авторы: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
Аннотация
В области информационного поиска объединение кандидатов от гетерогенных систем поиска представляет собой давнюю проблему, особенно для сложных многомодальных данных, таких как видео. Хотя типичные методы слияния не требуют обучения и опираются исключительно на ранговые или score-сигналы, они игнорируют репрезентации кандидатов. Данная работа представляет Vote-in-Context (ViC) — обобщенную framework-архитектуру, не требующую обучения, которая переосмысливает списковое переранжирование и слияние как задачу zero-shot-рассуждения для Vision-Language Model (VLM). Ключевая идея заключается в сериализации как контентных свидетельств, так и метаданных поисковых систем непосредственно в промпте VLM, что позволяет модели адаптивно взвешивать консенсус методов поиска относительно визуально-лингвистического контента. Мы демонстрируем универсальность этого подхода, применяя его к сложной задаче кросс-модального поиска видео. Для этого мы представляем S-Grid — компактную карту сериализации, которая представляет каждое видео в виде сетки изображений, опционально дополненной субтитрами, чтобы обеспечить списковое рассуждение над видео-кандидатами. ViC оценивается как в качестве переранжировщика единичного списка, где он значительно повышает точность отдельных поисковых систем, так и в качестве инструмента ансамблевого слияния, где он последовательно превосходит сильные базовые методы, такие как CombSUM. На бенчмарках поиска видео, включая ActivityNet и VATEX, фреймворк устанавливает новое state-of-the-art качество zero-shot-поиска, демонстрируя свою эффективность в обработке сложных визуальных и временных сигналов наряду с текстом. В условиях zero-shot ViC достигает показателей Recall@1 в 87.1% (t2v) / 89.0% (v2t) на MSR-VTT и 99.6% (v2t) на VATEX, что означает колоссальный прирост до +40 пунктов Recall@1 по сравнению с предыдущими state-of-the-art базовыми методами. Мы представляем ViC как простой, воспроизводимый и высокоэффективный метод превращения современных VLM в мощные zero-shot-переранжировщики и системы слияния. Код и ресурсы доступны по адресу: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC