VidVec: Explorando os Embeddings de Video MLLM para Recuperação Vídeo-Texto

Resumo

Estudos recentes adaptaram Modelos de Linguagem Multimodais Generativos (MLLMs) para atuarem como extratores de *embeddings* em tarefas de visão, geralmente por meio de *fine-tuning* para produzir representações universais. No entanto, o seu desempenho em vídeo permanece inferior ao dos Modelos de Base para Vídeo (VFMs). Neste artigo, focamos no aproveitamento de MLLMs para *embedding* e recuperação de vídeo-texto. Primeiro, realizamos uma análise sistemática por camadas, demonstrando que as camadas intermediárias (pré-treinadas) dos MLLMs já codificam informações substanciais relevantes para a tarefa. Aproveitando esta perceção, demonstramos que combinar os *embeddings* de camadas intermediárias com um cabeçalho de MLLM calibrado produz um forte desempenho de recuperação *zero-shot* sem qualquer treino. Com base nestas descobertas, introduzimos uma estratégia leve de alinhamento baseada em texto que mapeia legendas densas de vídeo para resumos curtos e permite a aprendizagem de *embeddings* vídeo-texto relacionados com a tarefa sem supervisão visual. Notavelmente, sem qualquer *fine-tuning* além do texto, o nosso método supera os métodos atuais, frequentemente por uma margem substancial, alcançando resultados de última geração em benchmarks comuns de recuperação de vídeo.

English

Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.

VidVec: Explorando os Embeddings de Video MLLM para Recuperação Vídeo-Texto

VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

Resumo

Support