MVEB : Benchmark d'Embedding Vidéo Massif

Résumé

Nous présentons le *Massive Video Embedding Benchmark* (MVEB), un ensemble de 23 tâches pour les plongements vidéo, couvrant la classification, la classification *zero-shot*, le regroupement (*clustering*), la classification par paires, la recherche et la réponse à des questions centrées sur la vidéo. Nous évaluons 33 modèles et constatons qu'aucun modèle unique ne domine : les plongements basés sur les MLLM excellent en classification, regroupement, classification par paires et Q&R ; la liaison multimodale (*multimodal binding*) est en tête pour la recherche et la classification *zero-shot* ; les MLLM génératifs sans adaptation contrastive s'effondrent sur les tâches intermodales. Des évaluations appariées vidéo seule versus audio+vidéo montrent que la contribution de l'audio dépend de la provenance des annotations des ensembles de données : l'audio aide lorsque les étiquettes ont été produites à partir des deux modalités et nuit lorsqu'elles ont été produites uniquement à partir du visuel, un écart de six points constant entre les familles de modèles. MVEB est dérivé de MVEB+, un ensemble de 184 tâches, et est conçu pour maintenir la diversité des tâches tout en réduisant le coût d'évaluation. Il s'intègre dans l'écosystème MTEB pour une évaluation unifiée du texte, de l'image, de l'audio et de la vidéo. Nous publions MVEB et l'ensemble des 184 tâches, accompagnés du code et d'un classement (*leaderboard*) à l'adresse https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.