MVEB: Массовый бенчмарк видеовложений

Аннотация

Мы представляем Massive Video Embedding Benchmark (MVEB) — эталонный набор из 23 задач для оценки видеовложений, охватывающий классификацию, классификацию с нулевым обучением, кластеризацию, попарную классификацию, поиск и вопросы-ответы по видеоматериалам. Мы оценили 33 модели и обнаружили, что ни одна из них не является доминирующей: вложения на основе MLLM лидируют в классификации, кластеризации, попарной классификации и вопросах-ответах; мультимодальное связывание превосходит в поиске и классификации с нулевым обучением; генеративные MLLM без контрастивной адаптации терпят крах в кросс-модальных задачах. Сравнение пар «только видео» и «аудио + видео» показывает, что вклад аудио зависит от происхождения аннотаций набора данных: аудио помогает, когда метки создавались на основе обеих модальностей, и вредит, когда они создавались только на основе визуальной информации — разрыв в шесть процентных пунктов, последовательно проявляющийся во всех семействах моделей. MVEB выведен из MVEB+, пула из 184 задач, и предназначен для сохранения разнообразия задач при снижении затрат на оценку. Он интегрирован в экосистему MTEB для унифицированной оценки текста, изображений, аудио и видео. Мы публикуем MVEB и все 184 задачи вместе с кодом и лидербордом на https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.