ChatPaper.aiChatPaper

Perception Test : Un Benchmark Diagnostique pour les Modèles Vidéo Multimodaux

Perception Test: A Diagnostic Benchmark for Multimodal Video Models

May 23, 2023
Auteurs: Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, João Carreira
cs.AI

Résumé

Nous proposons un nouveau benchmark vidéo multimodal - le Perception Test - pour évaluer les compétences de perception et de raisonnement des modèles multimodaux pré-entraînés (par exemple Flamingo, BEiT-3 ou GPT-4). Contrairement aux benchmarks existants qui se concentrent sur des tâches computationnelles (par exemple la classification, la détection ou le suivi), le Perception Test se focalise sur des compétences (Mémoire, Abstraction, Physique, Sémantique) et des types de raisonnement (descriptif, explicatif, prédictif, contrefactuel) à travers les modalités vidéo, audio et texte, afin de fournir un outil d'évaluation complet et efficace. Le benchmark explore les capacités de transfert des modèles pré-entraînés, dans un régime zero-shot / few-shot ou avec un fine-tuning limité. À cette fin, le Perception Test introduit 11,6k vidéos du monde réel, d'une durée moyenne de 23 secondes, conçues pour présenter des situations perceptuellement intéressantes, filmées par environ 100 participants à travers le monde. Les vidéos sont densément annotées avec six types d'étiquettes (questions-réponses à choix multiples et ancrées dans la vidéo, suivi d'objets et de points, segments d'actions temporelles et de sons), permettant des évaluations à la fois linguistiques et non linguistiques. Les ensembles de fine-tuning et de validation du benchmark sont disponibles publiquement (licence CC-BY), en plus d'un serveur de challenge avec un ensemble de test réservé. Les résultats de référence humains comparés aux modèles de question-réponse vidéo de pointe montrent un écart significatif de performance (91,4 % contre 43,6 %), suggérant qu'il existe une marge d'amélioration importante dans la compréhension vidéo multimodale. Le jeu de données, le code des modèles de référence et le serveur de challenge sont disponibles à l'adresse suivante : https://github.com/deepmind/perception_test.
English
We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a significant gap in performance (91.4% vs 43.6%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baselines code, and challenge server are available at https://github.com/deepmind/perception_test
PDF10December 15, 2024