Perception Test: Диагностический эталон для мультимодальных видео-моделей
Perception Test: A Diagnostic Benchmark for Multimodal Video Models
May 23, 2023
Авторы: Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, João Carreira
cs.AI
Аннотация
Мы предлагаем новый мультимодальный видео-бенчмарк — Perception Test — для оценки навыков восприятия и рассуждения предварительно обученных мультимодальных моделей (например, Flamingo, BEiT-3 или GPT-4). В отличие от существующих бенчмарков, которые сосредоточены на вычислительных задачах (например, классификация, детекция или отслеживание), Perception Test акцентирует внимание на навыках (Память, Абстракция, Физика, Семантика) и типах рассуждений (описательные, объяснительные, прогностические, контрфактические) в видео, аудио и текстовых модальностях, предоставляя комплексный и эффективный инструмент оценки. Бенчмарк исследует способности предварительно обученных моделей к переносу знаний в условиях zero-shot / few-shot или ограниченной дообучения. Для этих целей Perception Test включает 11,6 тыс. реальных видео средней продолжительностью 23 секунды, снятых примерно 100 участниками по всему миру и демонстрирующих перцептивно интересные ситуации. Видео плотно аннотированы шестью типами меток (множественный выбор и привязанные вопросы-ответы по видео, треки объектов и точек, временные сегменты действий и звуков), что позволяет проводить как языковые, так и неязыковые оценки. Разделы для дообучения и валидации бенчмарка доступны публично (лицензия CC-BY), а также сервер для проведения соревнований с закрытым тестовым разделом. Результаты базовых человеческих показателей по сравнению с современными моделями для видео-вопросов показывают значительный разрыв в производительности (91,4% против 43,6%), что свидетельствует о существенном потенциале для улучшения понимания мультимодального видео.
Набор данных, код базовых моделей и сервер для соревнований доступны по адресу:
https://github.com/deepmind/perception_test
English
We propose a novel multimodal video benchmark - the Perception Test - to
evaluate the perception and reasoning skills of pre-trained multimodal models
(e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus
on computational tasks (e.g. classification, detection or tracking), the
Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and
types of reasoning (descriptive, explanatory, predictive, counterfactual)
across video, audio, and text modalities, to provide a comprehensive and
efficient evaluation tool. The benchmark probes pre-trained models for their
transfer capabilities, in a zero-shot / few-shot or limited finetuning regime.
For these purposes, the Perception Test introduces 11.6k real-world videos, 23s
average length, designed to show perceptually interesting situations, filmed by
around 100 participants worldwide. The videos are densely annotated with six
types of labels (multiple-choice and grounded video question-answers, object
and point tracks, temporal action and sound segments), enabling both language
and non-language evaluations. The fine-tuning and validation splits of the
benchmark are publicly available (CC-BY license), in addition to a challenge
server with a held-out test split. Human baseline results compared to
state-of-the-art video QA models show a significant gap in performance (91.4%
vs 43.6%), suggesting that there is significant room for improvement in
multimodal video understanding.
Dataset, baselines code, and challenge server are available at
https://github.com/deepmind/perception_test