E.T. Bench: オープンエンドなイベントレベルのビデオ言語理解に向けて
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
September 26, 2024
著者: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
要旨
最近のビデオ大規模言語モデル(Video-LLMs)の進歩は、一般的なビデオ理解におけるその大きな潜在能力を示しています。これらのモデルの重要性を検証するために、さまざまなシナリオでの能力を診断するためのベンチマークがいくつか提案されています。しかし、既存のベンチマークは、ビデオレベルの質問応答を通じてモデルを評価するに過ぎず、細かいイベントレベルの評価やタスクの多様性が欠けています。このギャップを埋めるために、私たちはE.T. Bench(イベントレベル&時間感応型ビデオ理解ベンチマーク)を導入します。これは、オープンエンドのイベントレベルビデオ理解のための大規模で高品質なベンチマークです。3つのタスクタクソノミーに分類されるE.T. Benchは、8つのドメインで7K本のビデオ(総計251.4時間)を含む12のタスクの下に7.3Kのサンプルを網羅し、包括的な評価を提供しています。私たちは、8つの画像大規模言語モデルと12のビデオ大規模言語モデルを当社のベンチマークで広範囲に評価しました。その結果、粗いレベル(ビデオレベル)理解のための最先端モデルは、ビデオ内の興味のあるイベントを特定するなどの細かいタスクを解決するのに苦労していることが明らかになりました。これは、ビデオコンテキストの長さが短いこと、不適切な時間表現、および複数のイベントのトレーニングデータが不足していることが主な要因です。これらの問題に焦点を当て、私たちは、細かいイベントレベル理解に適したE.T. Instruct 164Kという指示調整データセットとともに、強力なベースラインモデルであるE.T. Chatを提案しています。私たちのシンプルで効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示しています。
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated
their great potential in general-purpose video understanding. To verify the
significance of these models, a number of benchmarks have been proposed to
diagnose their capabilities in different scenarios. However, existing
benchmarks merely evaluate models through video-level question-answering,
lacking fine-grained event-level assessment and task diversity. To fill this
gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding
Benchmark), a large-scale and high-quality benchmark for open-ended event-level
video understanding. Categorized within a 3-level task taxonomy, E.T. Bench
encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length)
under 8 domains, providing comprehensive evaluations. We extensively evaluated
8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that
state-of-the-art models for coarse-level (video-level) understanding struggle
to solve our fine-grained tasks, e.g., grounding event-of-interests within
videos, largely due to the short video context length, improper time
representations, and lack of multi-event training data. Focusing on these
issues, we further propose a strong baseline model, E.T. Chat, together with an
instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained
event-level understanding. Our simple but effective solution demonstrates
superior performance in multiple scenarios.Summary
AI-Generated Summary