Prueba de Percepción: Un Punto de Referencia Diagnóstico para Modelos de Video Multimodal
Perception Test: A Diagnostic Benchmark for Multimodal Video Models
May 23, 2023
Autores: Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, João Carreira
cs.AI
Resumen
Proponemos un nuevo benchmark multimodal de video - el Perception Test - para evaluar las habilidades de percepción y razonamiento de modelos multimodales preentrenados (por ejemplo, Flamingo, BEiT-3 o GPT-4). En comparación con los benchmarks existentes que se centran en tareas computacionales (por ejemplo, clasificación, detección o seguimiento), el Perception Test se enfoca en habilidades (Memoria, Abstracción, Física, Semántica) y tipos de razonamiento (descriptivo, explicativo, predictivo, contrafactual) a través de las modalidades de video, audio y texto, para proporcionar una herramienta de evaluación integral y eficiente. El benchmark examina las capacidades de transferencia de los modelos preentrenados, en un régimen de zero-shot / few-shot o ajuste fino limitado. Para estos propósitos, el Perception Test introduce 11.6k videos del mundo real, con una duración promedio de 23 segundos, diseñados para mostrar situaciones perceptualmente interesantes, filmados por alrededor de 100 participantes en todo el mundo. Los videos están densamente anotados con seis tipos de etiquetas (preguntas-respuestas de opción múltiple y ancladas en video, seguimientos de objetos y puntos, segmentos temporales de acción y sonido), permitiendo evaluaciones tanto lingüísticas como no lingüísticas. Las divisiones de ajuste fino y validación del benchmark están disponibles públicamente (licencia CC-BY), además de un servidor de desafíos con una división de prueba reservada. Los resultados de la línea base humana en comparación con los modelos de QA de video de última generación muestran una brecha significativa en el rendimiento (91.4% vs 43.6%), lo que sugiere que hay un margen considerable de mejora en la comprensión multimodal de video. El conjunto de datos, el código de las líneas base y el servidor de desafíos están disponibles en https://github.com/deepmind/perception_test.
English
We propose a novel multimodal video benchmark - the Perception Test - to
evaluate the perception and reasoning skills of pre-trained multimodal models
(e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus
on computational tasks (e.g. classification, detection or tracking), the
Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and
types of reasoning (descriptive, explanatory, predictive, counterfactual)
across video, audio, and text modalities, to provide a comprehensive and
efficient evaluation tool. The benchmark probes pre-trained models for their
transfer capabilities, in a zero-shot / few-shot or limited finetuning regime.
For these purposes, the Perception Test introduces 11.6k real-world videos, 23s
average length, designed to show perceptually interesting situations, filmed by
around 100 participants worldwide. The videos are densely annotated with six
types of labels (multiple-choice and grounded video question-answers, object
and point tracks, temporal action and sound segments), enabling both language
and non-language evaluations. The fine-tuning and validation splits of the
benchmark are publicly available (CC-BY license), in addition to a challenge
server with a held-out test split. Human baseline results compared to
state-of-the-art video QA models show a significant gap in performance (91.4%
vs 43.6%), suggesting that there is significant room for improvement in
multimodal video understanding.
Dataset, baselines code, and challenge server are available at
https://github.com/deepmind/perception_test