Perception Test: Un Benchmark Diagnostico per Modelli Video Multimodali

Abstract

Proponiamo un nuovo benchmark multimodale per video - il Perception Test - per valutare le capacità percettive e di ragionamento di modelli multimodali pre-addestrati (ad esempio Flamingo, BEiT-3 o GPT-4). Rispetto ai benchmark esistenti che si concentrano su compiti computazionali (ad esempio classificazione, rilevamento o tracciamento), il Perception Test si focalizza su abilità (Memoria, Astrazione, Fisica, Semantica) e tipi di ragionamento (descrittivo, esplicativo, predittivo, controfattuale) attraverso le modalità video, audio e testo, fornendo uno strumento di valutazione completo ed efficiente. Il benchmark analizza le capacità di trasferimento dei modelli pre-addestrati, in un regime zero-shot / few-shot o con un fine-tuning limitato. A tal fine, il Perception Test introduce 11.6k video del mondo reale, con una durata media di 23 secondi, progettati per mostrare situazioni percettivamente interessanti, girati da circa 100 partecipanti in tutto il mondo. I video sono densamente annotati con sei tipi di etichette (domande-risposte a scelta multipla e ancorate al video, tracciamenti di oggetti e punti, segmenti temporali di azioni e suoni), consentendo valutazioni sia linguistiche che non linguistiche. Le suddivisioni per il fine-tuning e la validazione del benchmark sono disponibili pubblicamente (licenza CC-BY), insieme a un server di sfida con una suddivisione di test riservata. I risultati di riferimento umani rispetto ai modelli all'avanguardia per QA su video mostrano un divario significativo nelle prestazioni (91,4% vs 43,6%), suggerendo che c'è ampio margine di miglioramento nella comprensione multimodale dei video. Dataset, codice di riferimento e server di sfida sono disponibili su https://github.com/deepmind/perception_test

English

We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a significant gap in performance (91.4% vs 43.6%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baselines code, and challenge server are available at https://github.com/deepmind/perception_test

Perception Test: Un Benchmark Diagnostico per Modelli Video Multimodali

Perception Test: A Diagnostic Benchmark for Multimodal Video Models

Abstract

Support