VidVec: 비디오-텍스트 검색을 위한 비디오 MLLM 임베딩 활용
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
February 8, 2026
저자: Issar Tzachor, Dvir Samuel, Rami Ben-Ari
cs.AI
초록
최근 연구에서는 생성형 다중모달 대규모 언어 모델(MLLM)을 비전 작업을 위한 임베딩 추출기로 적용하는 사례가 늘고 있으며, 일반적으로 보편적 표현을 생성하도록 미세 조정하는 방식을 취합니다. 그러나 비디오 작업에서의 성능은 비디오 기반 모델(VFM)에 미치지 못하는 실정입니다. 본 논문에서는 비디오-텍스트 임베딩 및 검색을 위해 MLLM을 활용하는 방안에 집중합니다. 먼저 체계적인 계층별 분석을 수행하여, 중간 계층(사전 훈련된) MLLM이 이미 상당한 작업 관련 정보를 인코딩하고 있음을 보입니다. 이러한 통찰력을 바탕으로, 중간 계층 임베딩과 보정된 MLLM 헤드를 결합하면 별도의 훈련 없이도 강력한 제로샷 검색 성능을 달성할 수 있음을 입증합니다. 이러한 결과를 토대로, 밀집된 비디오 캡션을 짧은 요약으로 매핑하여 시각적 감독 없이도 작업 관련 비디오-텍스트 임베딩 학습을 가능하게 하는 경량의 텍스트 기반 정렬 전략을 제안합니다. 주목할 점은, 텍스트 이상의 미세 조정 없이도 우리 방법이 기존 방법들을 크게 앞지르는 성능을 보여주며, 일반적인 비디오 검색 벤치마크에서 최첨단 결과를 달성했다는 것입니다.
English
Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.