TOMATO: マルチモーダルな基盤モデルにおける視覚的時間推論能力の評価
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
October 30, 2024
著者: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan
cs.AI
要旨
最新のマルチモーダル基盤モデル(MFMs)がビデオ理解のために時間的コンテキストを活用する際に達成する卓越した性能をよく示す既存のベンチマークがあります。しかし、これらのモデルがビジュアル時間的推論をどれだけ正確に行うかは実際にはどうでしょうか?私たちが行った既存のベンチマークの研究によると、MFMsのこの能力は多くの質問が単一、少数、または順不同のフレームを使用して解決できるため、過大評価されている可能性があります。現在のビジュアル時間的推論タスクを体系的に調査するために、我々は次の3つの原則とそれに対応するメトリクスを提案します:(1)マルチフレームゲイン、(2)フレーム順序感度、および(3)フレーム情報の不一致。これらの原則に従い、ビデオ理解におけるMFMsの時間的推論能力を厳密に評価するために、Temporal Reasoning Multimodal Evaluation(TOMATO)を導入します。TOMATOは、1,484の注意深く選定された人間によるアノテーションが施された質問と、人間中心、現実世界、およびシミュレートされたシナリオを含む1,417のビデオに適用される6つのタスク(アクション数、方向、回転、形状と傾向、速度と周波数、および視覚的手がかり)から構成されています。我々の包括的な評価により、最も性能の良いモデルとの間に57.3%の人間-モデルの性能差が明らかになりました。さらに、我々の詳細な分析により、現在のMFMsのこの差を超えたより基本的な制限が明らかになりました。これらのモデルは孤立したフレームでイベントを正確に認識できる一方で、これらのフレームを連続したシーケンスとして解釈することができません。TOMATOは、次世代のMFMsを評価するための重要なテストベッドとして、そしてAIシステムがビデオモダリティを通じて人間の世界のダイナミクスを理解する能力を開発するためのコミュニティへの呼びかけとして役立つと考えています。
English
Existing benchmarks often highlight the remarkable performance achieved by
state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal
context for video understanding. However, how well do the models truly perform
visual temporal reasoning? Our study of existing benchmarks shows that this
capability of MFMs is likely overestimated as many questions can be solved by
using a single, few, or out-of-order frames. To systematically examine current
visual temporal reasoning tasks, we propose three principles with corresponding
metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame
Information Disparity. Following these principles, we introduce TOMATO,
Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to
rigorously assess MFMs' temporal reasoning capabilities in video understanding.
TOMATO comprises 1,484 carefully curated, human-annotated questions spanning
six tasks (i.e., action count, direction, rotation, shape & trend, velocity &
frequency, and visual cues), applied to 1,417 videos, including 805
self-recorded and -generated videos, that encompass human-centric, real-world,
and simulated scenarios. Our comprehensive evaluation reveals a human-model
performance gap of 57.3% with the best-performing model. Moreover, our in-depth
analysis uncovers more fundamental limitations beyond this gap in current MFMs.
While they can accurately recognize events in isolated frames, they fail to
interpret these frames as a continuous sequence. We believe TOMATO will serve
as a crucial testbed for evaluating the next-generation MFMs and as a call to
the community to develop AI systems capable of comprehending human world
dynamics through the video modality.Summary
AI-Generated Summary