ChatPaper.aiChatPaper

Wahrnehmungstest: Ein diagnostischer Benchmark für multimodale Videomodelle

Perception Test: A Diagnostic Benchmark for Multimodal Video Models

May 23, 2023
Autoren: Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, João Carreira
cs.AI

Zusammenfassung

Wir schlagen einen neuartigen multimodalen Video-Benchmark vor – den Perception Test – zur Bewertung der Wahrnehmungs- und Denkfähigkeiten vortrainierter multimodaler Modelle (z. B. Flamingo, BEiT-3 oder GPT-4). Im Vergleich zu bestehenden Benchmarks, die sich auf rechnerische Aufgaben konzentrieren (z. B. Klassifizierung, Erkennung oder Verfolgung), legt der Perception Test den Fokus auf Fähigkeiten (Gedächtnis, Abstraktion, Physik, Semantik) und Arten des Denkens (beschreibend, erklärend, vorhersagend, kontrafaktisch) über Video-, Audio- und Textmodalitäten hinweg, um ein umfassendes und effizientes Bewertungswerkzeug bereitzustellen. Der Benchmark untersucht die Transferfähigkeiten vortrainierter Modelle in einem Zero-Shot-/Few-Shot- oder begrenzten Fine-Tuning-Regime. Zu diesem Zweck führt der Perception Test 11.600 reale Videos mit einer durchschnittlichen Länge von 23 Sekunden ein, die darauf abzielen, wahrnehmungsmäßig interessante Situationen zu zeigen und von rund 100 Teilnehmern weltweit aufgenommen wurden. Die Videos sind dicht mit sechs Arten von Labels annotiert (Multiple-Choice- und verankerte Video-Frage-Antworten, Objekt- und Punktverfolgungen, zeitliche Handlungs- und Soundsegmente), wodurch sowohl sprachliche als auch nicht-sprachliche Bewertungen ermöglicht werden. Die Fine-Tuning- und Validierungsaufteilungen des Benchmarks sind öffentlich verfügbar (CC-BY-Lizenz), zusätzlich zu einem Challenge-Server mit einer zurückgehaltenen Testaufteilung. Die menschlichen Baseline-Ergebnisse im Vergleich zu modernsten Video-QA-Modellen zeigen eine signifikante Leistungslücke (91,4 % vs. 43,6 %), was darauf hindeutet, dass es erheblichen Spielraum für Verbesserungen im multimodalen Videoverständnis gibt. Datensatz, Baseline-Code und Challenge-Server sind verfügbar unter https://github.com/deepmind/perception_test
English
We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a significant gap in performance (91.4% vs 43.6%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baselines code, and challenge server are available at https://github.com/deepmind/perception_test
PDF10December 15, 2024