VidVec: Desbloqueo de Incrustaciones MLLM de Video para la Recuperación Video-Texto
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
February 8, 2026
Autores: Issar Tzachor, Dvir Samuel, Rami Ben-Ari
cs.AI
Resumen
Estudios recientes han adaptado Modelos de Lenguaje Grandes Multimodales (MLLMs) generativos para funcionar como extractores de *embeddings* en tareas de visión, normalmente mediante ajuste fino para producir representaciones universales. Sin embargo, su rendimiento en vídeo sigue siendo inferior al de los Modelos Fundacionales de Vídeo (VFMs). En este artículo, nos centramos en aprovechar los MLLMs para la obtención de *embeddings* y la recuperación de vídeo-texto. En primer lugar, realizamos un análisis sistemático por capas que muestra que las capas intermedias (preentrenadas) de los MLLMs ya codifican información sustancial relevante para la tarea. Aprovechando esta observación, demostramos que combinar los *embeddings* de capas intermedias con una cabeza de MLLM calibrada produce un sólido rendimiento de recuperación *zero-shot* sin ningún entrenamiento. Basándonos en estos hallazgos, introducimos una estrategia de alineamiento ligera basada en texto que mapea descripciones densas de vídeo a resúmenes breves y permite el aprendizaje de *embeddings* vídeo-texto relacionados con la tarea sin supervisión visual. Notablemente, sin ningún ajuste fino más allá del texto, nuestro método supera a los métodos actuales, a menudo por un margen sustancial, logrando resultados punteros en los benchmarks comunes de recuperación de vídeo.
English
Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.