MVEB: Benchmark Masivo de Embeddings de Video

Resumen

Presentamos el Massive Video Embedding Benchmark (MVEB), un conjunto de 23 tareas para embeddings de video que abarca clasificación, clasificación zero-shot, agrupamiento (clustering), clasificación por pares, recuperación (retrieval) y respuesta a preguntas centrada en video. Evaluamos 33 modelos y descubrimos que ningún modelo domina por completo: los embeddings basados en MLLM lideran en clasificación, agrupamiento, clasificación por pares y QA; el enlace multimodal (multimodal binding) destaca en recuperación y clasificación zero-shot; los MLLM generativos sin adaptación contrastiva colapsan en tareas intermodales (cross-modal). Las evaluaciones pareadas solo-video frente a audio+video muestran que la contribución del audio depende de la procedencia de la anotación del conjunto de datos: el audio ayuda cuando las etiquetas se produjeron a partir de ambas modalidades y perjudica cuando se generaron únicamente a partir de información visual, una brecha de seis puntos consistente en todas las familias de modelos. MVEB se deriva de MVEB+, un conjunto de 184 tareas, y está diseñado para mantener la diversidad de tareas reduciendo el costo de evaluación. Se integra en el ecosistema MTEB para una evaluación unificada en texto, imagen, audio y video. Publicamos MVEB y las 184 tareas junto con el código y un líder de clasificación (leaderboard) en https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.