MVEB: Grootschalige Video-Embedding Benchmark

Samenvatting

We introduceren de Massive Video Embedding Benchmark (MVEB), een benchmark met 23 taken voor video-embeddings, waaronder classificatie, zero-shot classificatie, clustering, paarclassificatie, retrieval en video-gerichte vraagbeantwoording. We evalueren 33 modellen en constateren dat geen enkel model domineert: MLLM-gebaseerde embeddings presteren het best op classificatie, clustering, paarclassificatie en QA; multimodale binding presteert het best op retrieval en zero-shot classificatie; generatieve MLLM's zonder contrastieve aanpassing presteren slecht op cross-modale taken. Gepaarde video-only versus audio+video-evaluaties tonen aan dat de bijdrage van audio afhangt van de herkomst van datasetannotaties: audio helpt wanneer labels uit beide modaliteiten zijn geproduceerd en schaadt wanneer ze uitsluitend uit visuele informatie zijn geproduceerd, een kloof van zes punten die consistent is over modelfamilies heen. MVEB is afgeleid van MVEB+, een pool van 184 taken, en is ontworpen om taakdiversiteit te behouden terwijl de evaluatiekosten worden verlaagd. Het integreert in het MTEB-ecosysteem voor uniforme evaluatie over tekst, beeld, audio en video. We geven MVEB en alle 184 taken vrij, samen met code en een leaderboard op https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.