지각 테스트: 다중모드 비디오 모델을 위한 진단 벤치마크
Perception Test: A Diagnostic Benchmark for Multimodal Video Models
May 23, 2023
저자: Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, João Carreira
cs.AI
초록
본 연구에서는 사전 학습된 다중모달 모델(예: Flamingo, BEiT-3, GPT-4 등)의 지각 및 추론 능력을 평가하기 위한 새로운 다중모달 비디오 벤치마크인 'Perception Test'를 제안한다. 기존의 벤치마크가 주로 분류, 탐지, 추적과 같은 계산적 과제에 초점을 맞추는 반면, Perception Test는 비디오, 오디오, 텍스트 모달리티에 걸쳐 기억, 추상화, 물리학, 의미론과 같은 능력과 기술적, 설명적, 예측적, 반사실적 추론 유형에 초점을 맞춰 포괄적이고 효율적인 평가 도구를 제공한다. 이 벤치마크는 제로샷/퓨샷 또는 제한된 파인튜닝 환경에서 사전 학습된 모델의 전이 능력을 탐구한다. 이를 위해 Perception Test는 전 세계 약 100명의 참가자가 촬영한 평균 23초 길이의 11,600개의 실제 비디오를 도입하여 지각적으로 흥미로운 상황을 보여주도록 설계되었다. 이 비디오들은 객관식 및 근거 기반 비디오 질문-답변, 객체 및 점 트랙, 시간적 행동 및 사운드 세그먼트 등 6가지 유형의 라벨로 밀도 있게 주석 처리되어 언어 및 비언어 평가를 모두 가능하게 한다. 벤치마크의 파인튜닝 및 검증 분할은 CC-BY 라이선스로 공개되어 있으며, 보유된 테스트 분할을 포함한 챌린지 서버도 제공된다. 최첨단 비디오 QA 모델과 비교한 인간 기준 결과는 성능에서 상당한 차이(91.4% 대 43.6%)를 보여주며, 다중모달 비디오 이해 분야에서 개선의 여지가 크다는 것을 시사한다. 데이터셋, 기준 코드 및 챌린지 서버는 https://github.com/deepmind/perception_test에서 이용 가능하다.
English
We propose a novel multimodal video benchmark - the Perception Test - to
evaluate the perception and reasoning skills of pre-trained multimodal models
(e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus
on computational tasks (e.g. classification, detection or tracking), the
Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and
types of reasoning (descriptive, explanatory, predictive, counterfactual)
across video, audio, and text modalities, to provide a comprehensive and
efficient evaluation tool. The benchmark probes pre-trained models for their
transfer capabilities, in a zero-shot / few-shot or limited finetuning regime.
For these purposes, the Perception Test introduces 11.6k real-world videos, 23s
average length, designed to show perceptually interesting situations, filmed by
around 100 participants worldwide. The videos are densely annotated with six
types of labels (multiple-choice and grounded video question-answers, object
and point tracks, temporal action and sound segments), enabling both language
and non-language evaluations. The fine-tuning and validation splits of the
benchmark are publicly available (CC-BY license), in addition to a challenge
server with a held-out test split. Human baseline results compared to
state-of-the-art video QA models show a significant gap in performance (91.4%
vs 43.6%), suggesting that there is significant room for improvement in
multimodal video understanding.
Dataset, baselines code, and challenge server are available at
https://github.com/deepmind/perception_test