投票インコンテクスト:VLMをゼロショットランク融合器に変える
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
November 3, 2025
著者: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan
cs.AI
要旨
検索領域において、異種検索器から得られる候補の融合は、特に動画のような複雑なマルチモーダルデータにおいて、長年の課題となっている。典型的な融合技術は訓練不要であるが、順位やスコアの信号のみに依存し、候補の表現を考慮しない。本研究は、リスト単位の再ランキングと融合を、Vision-Language Model (VLM) に対するゼロショット推論タスクとして再定義する、汎用的で訓練不要なフレームワークであるVote-in-Context (ViC) を提案する。中核となる洞察は、コンテンツの証拠と検索器のメタデータの両方をVLMのプロンプト内で直接シリアライズし、モデルが視覚的・言語的コンテンツに対して検索器の合意を適応的に重み付けできるようにすることである。我々は、このフレームワークの汎用性を、クロスモーダル動画検索という挑戦的な領域に適用することで実証する。この目的のために、各動画を画像グリッドとして表現するコンパクトなシリアライゼーションマップであるS-Gridを導入し、必要に応じて字幕を組み合わせることで、動画候補に対するリスト単位の推論を可能にする。ViCは、単一リストの再ランキング手法として評価した場合、個々の検索器の精度を劇的に向上させ、アンサンブル融合手法として評価した場合、CombSUMのような強力なベースラインを一貫して上回る。ActivityNetやVATEXを含む動画検索ベンチマークにおいて、本フレームワークはテキストに加えて複雑な視覚的・時間的信号を扱うその有効性を示し、新たな state-of-the-art ゼロショット検索性能を確立した。ゼロショット設定では、ViCはMSR-VTTにおいて87.1% (t2v) / 89.0% (v2t)、VATEXにおいて99.6% (v2t) というRecall@1スコアを達成し、従来の state-of-the-art ベースラインに対して最大+40 Recall@1という大幅な向上を実現した。我々はViCを、現代のVLMを強力なゼロショット再ランキング・融合器に変える、シンプルで再現性が高く、極めて効果的な手法として提示する。コードとリソースは以下で公開されている: https://github.com/mohammad2012191/ViC
English
In the retrieval domain, candidates' fusion from heterogeneous retrievers is
a long-standing challenge, particularly for complex, multi-modal data such as
videos. While typical fusion techniques are training-free, they rely solely on
rank or score signals, disregarding candidates' representations. This work
introduces Vote-in-Context (ViC), a generalized, training-free framework that
re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a
Vision-Language Model (VLM). The core insight is to serialize both content
evidence and retriever metadata directly within the VLM's prompt, allowing the
model to adaptively weigh retriever consensus against visual-linguistic
content. We demonstrate the generality of this framework by applying it to the
challenging domain of cross-modal video retrieval. To this end, we introduce
the S-Grid, a compact serialization map that represents each video as an image
grid, optionally paired with subtitles to enable list-wise reasoning over video
candidates. ViC is evaluated both as a single-list reranker, where it
dramatically improves the precision of individual retrievers, and as an
ensemble fuser, where it consistently outperforms strong baselines like
CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the
framework establishes new state-of-the-art zero-shot retrieval performance,
demonstrating its effectiveness in handling complex visual and temporal signals
alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1%
(t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive
gains of up to +40 Recall@1 over previous state-of-the-art baselines. We
present ViC as a simple, reproducible, and highly effective recipe for turning
modern VLMs into powerful zero-shot rerankers and fusers. Code and resources
are publicly available at: https://github.com/mohammad2012191/ViC