VidVec: Het Ontsluiten van Video MLLM-Embeddings voor Video-Tekst Retrieval

Samenvatting

Recente studies hebben generatieve multimodale grote taalmodellen (MLLM's) aangepast tot embedding-extractors voor visuele taken, doorgaans door middel van fine-tuning om universele representaties te produceren. Hun prestaties op video blijven echter inferieur aan die van Video Foundation Models (VFM's). In dit artikel richten we ons op het inzetten van MLLM's voor video-tekst-embedding en -retrieval. We voeren eerst een systematische, laag-voor-laag-analyse uit, waaruit blijkt dat tussenliggende (vooraf getrainde) MLLM-lagen reeds substantiële taakrelevante informatie coderen. Gebruikmakend van dit inzicht, tonen we aan dat het combineren van embeddings uit tussenliggende lagen met een gekalibreerde MLLM-head sterke zero-shot retrievalprestaties oplevert zonder enige training. Voortbordurend op deze bevindingen, introduceren we een lichtgewicht tekstgebaseerde aligneringsstrategie die dichte videobijschriften afbeeldt op korte samenvattingen, en het leren van taakgerelateerde video-tekst-embeddings mogelijk maakt zonder visuele supervisie. Opmerkelijk genoeg presteert onze methode, zonder enige fine-tuning voorbij tekst, beter dan huidige methoden, vaak met een aanzienlijke marge, en behaalt state-of-the-art resultaten op gangbare video-retrievalbenchmarks.

English

Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.

VidVec: Het Ontsluiten van Video MLLM-Embeddings voor Video-Tekst Retrieval

VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

Samenvatting

Support