Perception Test: Een Diagnostische Benchmark voor Multimodale Videomodellen

Samenvatting

Wij stellen een nieuwe multimodale videobenchmark voor - de Perception Test - om de waarnemings- en redeneervaardigheden van vooraf getrainde multimodale modellen (bijv. Flamingo, BEiT-3 of GPT-4) te evalueren. In tegenstelling tot bestaande benchmarks die zich richten op computationele taken (bijv. classificatie, detectie of tracking), richt de Perception Test zich op vaardigheden (Geheugen, Abstractie, Natuurkunde, Semantiek) en soorten redenering (beschrijvend, verklarend, voorspellend, contrafeitelijk) over video-, audio- en tekstmodaliteiten, om een uitgebreid en efficiënt evaluatie-instrument te bieden. De benchmark test vooraf getrainde modellen op hun transfercapaciteiten, in een zero-shot / few-shot of beperkte fine-tuning-regime. Voor deze doeleinden introduceert de Perception Test 11.6k real-world video's, gemiddeld 23 seconden lang, ontworpen om perceptueel interessante situaties te tonen, gefilmd door ongeveer 100 deelnemers wereldwijd. De video's zijn dicht geannoteerd met zes soorten labels (meerkeuze- en gegronde video-vraag-antwoorden, object- en puntsporen, temporele actie- en geluidssegmenten), waardoor zowel taal- als niet-taal evaluaties mogelijk zijn. De fine-tuning- en validatiesplitsingen van de benchmark zijn publiekelijk beschikbaar (CC-BY licentie), naast een challengeserver met een afgezonderde testsplitsing. Menselijke basislijnresultaten vergeleken met state-of-the-art video QA-modellen tonen een significant prestatieverschil (91,4% vs 43,6%), wat suggereert dat er aanzienlijke ruimte is voor verbetering in multimodaal videobegrip. Dataset, basislijntoepassingen en challengeserver zijn beschikbaar op https://github.com/deepmind/perception_test

English

We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a significant gap in performance (91.4% vs 43.6%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baselines code, and challenge server are available at https://github.com/deepmind/perception_test

Perception Test: Een Diagnostische Benchmark voor Multimodale Videomodellen

Perception Test: A Diagnostic Benchmark for Multimodal Video Models

Samenvatting

Support