VidVec: Sfruttare gli embedding MLLM video per il retrieval video-testo
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
February 8, 2026
Autori: Issar Tzachor, Dvir Samuel, Rami Ben-Ari
cs.AI
Abstract
Studi recenti hanno adattato i modelli linguistici multimodali generativi (MLLM) per fungere da estrattori di embedding per task visivi, tipicamente attraverso fine-tuning per produrre rappresentazioni universali. Tuttavia, le loro prestazioni sui video rimangono inferiori a quelle dei Modelli Fondazionali per Video (VFM). In questo articolo, ci concentriamo sullo sfruttamento degli MLLM per l'embedding e il retrieval video-testo. Iniziamo conducendo un'analisi sistematica strato per strato, dimostrando che gli strati intermedi (pre-addestrati) degli MLLM codificano già informazioni sostanziali rilevanti per il compito. Sfruttando questa intuizione, dimostriamo che combinare gli embedding degli strati intermedi con una testa MLLM calibrata produce forti prestazioni di retrieval zero-shot senza alcun addestramento. Basandoci su questi risultati, introduciamo una strategia di allineamento leggera basata sul testo, che mappa descrizioni dense di video a riassunti brevi e abilita l'apprendimento di embedding video-testo correlati al compito senza supervisione visiva. Notevolmente, senza alcun fine-tuning oltre al testo, il nostro metodo supera le metodologie attuali, spesso con un margine sostanziale, raggiungendo risultati allo stato dell'arte su comuni benchmark di retrieval video.
English
Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.