VidVec : Exploitation des embeddings MLLM vidéo pour la recherche vidéo-texte
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
February 8, 2026
papers.authors: Issar Tzachor, Dvir Samuel, Rami Ben-Ari
cs.AI
papers.abstract
Des études récentes ont adapté les modèles de langage multimodaux (MLLMs) génératifs pour en faire des extracteurs d'incorporations pour des tâches visuelles, généralement par micro-ajustement afin de produire des représentations universelles. Cependant, leurs performances sur la vidéo restent inférieures à celles des modèles fondationnels vidéo (VFMs). Dans cet article, nous nous concentrons sur l'exploitation des MLLMs pour l'incorporation et la recherche vidéo-texte. Nous menons d'abord une analyse systématique couche par couche, montrant que les couches intermédiaires (pré-entraînées) des MLLMs encodent déjà des informations substantielles pertinentes pour la tâche. En tirant parti de cette observation, nous démontrons que la combinaison des incorporations des couches intermédiaires avec une tête de MLLM calibrée permet d'obtenir de solides performances de recherche zero-shot sans aucun entraînement. Sur la base de ces résultats, nous introduisons une stratégie d'alignement légère basée sur le texte, qui cartographie des descriptions vidéo denses vers des résumés courts et permet un apprentissage d'incorporation vidéo-texte lié à la tâche sans supervision visuelle. Fait remarquable, sans aucun micro-ajustement au-delà du texte, notre méthode surpasse les approches actuelles, souvent de manière substantielle, obtenant des résultats state-of-the-art sur les benchmarks courants de recherche vidéo.
English
Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.