MVEB: Benchmark Massivo de Embeddings de Vídeo

Resumo

Apresentamos o Massive Video Embedding Benchmark (MVEB), um benchmark de 23 tarefas para embeddings de vídeo abrangendo classificação, classificação zero-shot, agrupamento, classificação de pares, recuperação e resposta a perguntas centradas em vídeo. Avaliamos 33 modelos e descobrimos que nenhum modelo domina isoladamente: embeddings baseados em MLLM lideram em classificação, agrupamento, classificação de pares e QA; a ligação multimodal lidera em recuperação e classificação zero-shot; MLLMs generativos sem adaptação contrastiva colapsam em tarefas cross-modais. Avaliações pareadas de apenas vídeo versus áudio+vídeo mostram que a contribuição do áudio depende da proveniência da anotação do conjunto de dados: o áudio ajuda quando os rótulos foram produzidos a partir de ambas as modalidades e prejudica quando foram produzidos apenas a partir de elementos visuais, uma diferença de seis pontos consistente entre famílias de modelos. O MVEB é derivado do MVEB+, um conjunto de 184 tarefas, e foi projetado para manter a diversidade de tarefas enquanto reduz o custo de avaliação. Ele se integra ao ecossistema MTEB para avaliação unificada em texto, imagem, áudio e vídeo. Disponibilizamos o MVEB e todas as 184 tarefas, juntamente com código e um leaderboard, em https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.