TVBench: ビデオ言語評価の再設計
TVBench: Redesigning Video-Language Evaluation
October 10, 2024
著者: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI
要旨
大規模言語モデルは、ビジョンモデルと統合されることで印象的なパフォーマンスを発揮し、ビデオ理解さえ可能にしています。ただし、これらのビデオモデルを評価することには独自の課題があり、そのためにいくつかのベンチマークが提案されています。本論文では、現在最も使用されているビデオ言語ベンチマークが、時間的推論をほとんど必要とせずに解決できることを示します。既存のデータセットには、次の3つの主要な問題点が特定されました:(i) 単一フレームからの静的情報だけでタスクを解決するのに十分なことが多いこと、(ii) 質問と候補回答のテキストが過剰に情報提供されており、モデルが視覚的入力に依存せずに正しく回答できること、(iii) 世界知識だけで多くの質問に回答できることで、ベンチマークは視覚的推論ではなく知識複製のテストとなっています。さらに、ビデオ理解のためのオープンエンドの質疑応答ベンチマークも同様の問題を抱えており、LLMによる自動評価プロセスは信頼性に欠けるため、適切な代替手段とはなりません。その解決策として、我々はTVBenchを提案します。これは新しいオープンソースのビデオ多肢選択質疑応答ベンチマークであり、広範な評価を通じて高度な時間理解が必要であることを示しています。驚くべきことに、最近の最先端のビデオ言語モデルのほとんどがTVBenchでランダムなパフォーマンスと同等の結果を示し、Gemini-ProとTarsierのみがこのベースラインを明らかに上回っていることがわかりました。
English
Large language models have demonstrated impressive performance when
integrated with vision models even enabling video understanding. However,
evaluating these video models presents its own unique challenges, for which
several benchmarks have been proposed. In this paper, we show that the
currently most used video-language benchmarks can be solved without requiring
much temporal reasoning. We identified three main issues in existing datasets:
(i) static information from single frames is often sufficient to solve the
tasks (ii) the text of the questions and candidate answers is overly
informative, allowing models to answer correctly without relying on any visual
input (iii) world knowledge alone can answer many of the questions, making the
benchmarks a test of knowledge replication rather than visual reasoning. In
addition, we found that open-ended question-answering benchmarks for video
understanding suffer from similar issues while the automatic evaluation process
with LLMs is unreliable, making it an unsuitable alternative. As a solution, we
propose TVBench, a novel open-source video multiple-choice question-answering
benchmark, and demonstrate through extensive evaluations that it requires a
high level of temporal understanding. Surprisingly, we find that most recent
state-of-the-art video-language models perform similarly to random performance
on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.