VidVec: ビデオ-テキスト検索におけるビデオMLLM埋め込みの解放
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
February 8, 2026
著者: Issar Tzachor, Dvir Samuel, Rami Ben-Ari
cs.AI
要旨
近年、生成型マルチモーダル大規模言語モデル(MLLM)を視覚タスク向けの埋め込み抽出器として適応させる研究が進められており、通常は普遍的な表現を生成するためのファインチューニングを通じて実現されている。しかし、動画タスクにおけるその性能は、動画基盤モデル(VFM)に劣っている。本論文では、動画-テキストの埋め込みと検索にMLLMを活用することに焦点を当てる。まず体系的なレイヤーごとの分析を行い、中間層(事前学習済み)のMLLMが既に相当量のタスク関連情報を符号化していることを示す。この知見を活かし、中間層の埋め込みを較正されたMLLMヘッドと組み合わせることで、一切の訓練なしに強力なゼロショット検索性能が得られることを実証する。これらの発見に基づき、高密度な動画キャプションを短い要約にマッピングする軽量なテキストベースのアライメント手法を提案する。これにより、視覚的な教師信号なしでタスク関連の動画-テキスト埋め込み学習を可能にする。注目すべきは、テキスト以外のファインチューニングを一切行わなくても、本手法が既存手法をしばしば大幅に上回り、一般的な動画検索ベンチマークで state-of-the-art の結果を達成することである。
English
Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.