MVEB: Massiver Video-Embedding-Benchmark

Zusammenfassung

Wir stellen das Massive Video Embedding Benchmark (MVEB) vor, ein Benchmark mit 23 Aufgaben für Video-Embeddings, das Klassifikation, Zero-Shot-Klassifikation, Clustering, Paarklassifikation, Retrieval und videobasierte Fragebeantwortung umfasst. Wir evaluieren 33 Modelle und stellen fest, dass kein einzelnes Modell dominiert: MLLM-basierte Embeddings führen bei Klassifikation, Clustering, Paarklassifikation und QA; multimodale Bindung führt bei Retrieval und Zero-Shot-Klassifikation; generative MLLMs ohne kontrastive Anpassung kollabieren bei cross-modalen Aufgaben. Gepaarte video-only- vs. Audio+Video-Evaluierungen zeigen, dass der Beitrag von Audio von der Annotationsherkunft des Datensatzes abhängt: Audio hilft, wenn Labels aus beiden Modalitäten erstellt wurden, und schadet, wenn sie ausschließlich aus visuellen Informationen stammen – eine über Modellfamilien hinweg konsistente Lücke von sechs Prozentpunkten. MVEB wird aus MVEB+ abgeleitet, einem Pool von 184 Aufgaben, und ist darauf ausgelegt, die Aufgabendiversität zu erhalten, während die Evaluierungskosten gesenkt werden. Es integriert sich in das MTEB-Ökosystem für eine einheitliche Evaluierung über Text, Bild, Audio und Video hinweg. Wir veröffentlichen MVEB und alle 184 Aufgaben zusammen mit Code und einem Leaderboard unter https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.