Perception Test: Um Benchmark Diagnóstico para Modelos de Vídeo Multimodal

Resumo

Propomos um novo benchmark multimodal de vídeo - o Teste de Percepção - para avaliar as habilidades de percepção e raciocínio de modelos multimodais pré-treinados (por exemplo, Flamingo, BEiT-3 ou GPT-4). Em comparação com benchmarks existentes que se concentram em tarefas computacionais (por exemplo, classificação, detecção ou rastreamento), o Teste de Percepção foca em habilidades (Memória, Abstração, Física, Semântica) e tipos de raciocínio (descritivo, explicativo, preditivo, contrafactual) através das modalidades de vídeo, áudio e texto, fornecendo uma ferramenta de avaliação abrangente e eficiente. O benchmark investiga as capacidades de transferência dos modelos pré-treinados, em um regime de zero-shot / few-shot ou ajuste fino limitado. Para esses propósitos, o Teste de Percepção introduz 11,6 mil vídeos do mundo real, com duração média de 23 segundos, projetados para mostrar situações perceptualmente interessantes, filmados por cerca de 100 participantes em todo o mundo. Os vídeos são densamente anotados com seis tipos de rótulos (respostas de múltipla escolha e perguntas fundamentadas em vídeo, rastreamentos de objetos e pontos, segmentos temporais de ação e som), permitindo avaliações tanto linguísticas quanto não linguísticas. As divisões de ajuste fino e validação do benchmark estão publicamente disponíveis (licença CC-BY), além de um servidor de desafios com uma divisão de teste reservada. Os resultados da linha de base humana comparados aos modelos de QA de vídeo state-of-the-art mostram uma lacuna significativa de desempenho (91,4% vs 43,6%), sugerindo que há espaço considerável para melhoria na compreensão multimodal de vídeo. O conjunto de dados, código das linhas de base e servidor de desafios estão disponíveis em https://github.com/deepmind/perception_test.

English

We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a significant gap in performance (91.4% vs 43.6%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baselines code, and challenge server are available at https://github.com/deepmind/perception_test

Perception Test: Um Benchmark Diagnóstico para Modelos de Vídeo Multimodal

Perception Test: A Diagnostic Benchmark for Multimodal Video Models

Resumo

Support