ChatPaper.aiChatPaper

MMWorld: ビデオにおける多分野・多面的世界モデル評価の実現に向けて

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

June 12, 2024
著者: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI

要旨

マルチモーダル言語モデル(MLLMs)は、「世界モデル」としての新たな能力を示しています。これは、複雑な現実世界のダイナミクスを解釈し、推論する能力です。これらの能力を評価するために、我々はビデオが理想的な媒体であると考えます。なぜなら、ビデオは現実世界のダイナミクスと因果関係を豊かに表現しているからです。この目的のために、我々はMMWorldという新しいベンチマークを導入します。これは、多分野にわたる多面的なマルチモーダルビデオ理解のためのベンチマークです。MMWorldは、以下の2つのユニークな利点により、従来のビデオ理解ベンチマークと区別されます:(1)多分野にわたるカバレッジ。包括的な理解のためにしばしば専門知識を必要とする様々な分野をカバーします。(2)多面的な推論。説明、反事実的思考、未来予測などを含みます。MMWorldは、ビデオ全体に関する質問でMLLMsを評価するための人間によるアノテーションデータセットと、単一の知覚モダリティ内でMLLMsを分析するための合成データセットで構成されています。MMWorldは、7つの広範な分野と69のサブ分野にわたる1,910のビデオ、6,627の質問-回答ペア、および関連するキャプションを含んでいます。評価には、2つのプロプライエタリモデルと10のオープンソースMLLMsが含まれており、これらのモデルはMMWorldで苦戦しています(例えば、GPT-4Vが最高の精度52.3%を達成していますが、まだ大きな改善の余地があります)。さらなるアブレーションスタディでは、モデルが人間とは異なるスキルセットを持っていることなど、興味深い発見が明らかになりました。我々は、MMWorldがビデオにおける世界モデル評価に向けた重要な一歩となることを期待しています。
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.

Summary

AI-Generated Summary

PDF290December 8, 2024