May 31
ByChaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun
人工汎用知能の探求において、マルチモーダル大規模言語モデル(MLLMs)は近年の進歩の焦点として浮上している。しかし、その主な焦点は依然として静的な画像理解能力の開発に留まっている。MLLMsが連続的な視覚データを処理する可能性はまだ十分に探求されておらず、その性能を包括的かつ高品質に評価する枠組みが欠如している。本論文では、ビデオ分析におけるMLLMsの初のフルスペクトラムなマルチモーダル評価ベンチマークであるVideo-MMEを紹介する。我々の研究は、以下の4つの主要な特徴により既存のベンチマークと区別される:1)ビデオタイプの多様性、6つの主要な視覚領域と30のサブフィールドにわたる広範なシナリオ一般化を確保;2)時間次元における持続時間、11秒から1時間までの短期、中期、長期のビデオを含む堅牢な文脈ダイナミクス;3)データモダリティの広がり、ビデオフレームに加えて字幕や音声などのマルチモーダル入力を統合し、MLLMsの全方位の能力を明らかにする;4)アノテーションの品質、専門のアノテーターによる厳密な手動ラベリングを活用し、正確で信頼性の高いモデル評価を促進する。900本のビデオ、合計256時間分が手動で選定され、全てのビデオコンテンツを繰り返し視聴することで2,700の質問-回答ペアが生成された。Video-MMEを用いて、GPT-4シリーズやGemini 1.5 Proなどの最先端のMLLMs、およびInternVL-Chat-V1.5やLLaVA-NeXT-Videoなどのオープンソースの画像モデルやビデオモデルを広範に評価した。我々の実験により、Gemini 1.5 Proが最も優れた商用モデルであり、オープンソースモデルを大幅に上回ることが明らかになった。我々のデータセットとこれらの発見は、より長いシーケンスとマルチモーダルデータの処理におけるさらなる改善の必要性を強調している。プロジェクトページ:https://video-mme.github.io