ChatPaper.aiChatPaper

VidVec: Раскрытие потенциала встраиваний Video MLLM для видео-текстового поиска

VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

February 8, 2026
Авторы: Issar Tzachor, Dvir Samuel, Rami Ben-Ari
cs.AI

Аннотация

В последних исследованиях генеративные мультимодальные большие языковые модели (MLLM) адаптировались для извлечения эмбеддингов в задачах компьютерного зрения, обычно путем тонкой настройки для получения универсальных представлений. Однако их производительность на видео остается ниже, чем у фоновых видео-моделей (VFM). В данной статье мы сосредотачиваемся на использовании MLLM для получения видео-текстовых эмбеддингов и решения задач поиска. Сначала мы проводим систематический послойный анализ, показывающий, что промежуточные (предобученные) слои MLLM уже кодируют значительный объем релевантной для задачи информации. Используя это наблюдение, мы демонстрируем, что комбинирование эмбеддингов промежуточных слоев с калиброванной головой MLLM позволяет достичь высокой производительности поиска в режиме zero-shot без какого-либо обучения. Основываясь на этих результатах, мы представляем легковесную стратегию текстовой адаптации, которая сопоставляет плотные описания видео с краткими суммаризациями и позволяет изучать релевантные для задачи видео-текстовые эмбеддинги без визуального супервизора. Примечательно, что без какой-либо тонкой настройки, кроме работы с текстом, наш метод превосходит современные подходы, часто с существенным отрывом, достигая наилучших результатов на стандартных бенчмарках для видео-поиска.
English
Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.
PDF91February 13, 2026