ChatPaper.aiChatPaper

Video-MME:映像分析におけるマルチモーダル大規模言語モデルの初の包括的評価ベンチマーク

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31, 2024
著者: Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun
cs.AI

要旨

人工汎用知能の探求において、マルチモーダル大規模言語モデル(MLLMs)は近年の進歩の焦点として浮上している。しかし、その主な焦点は依然として静的な画像理解能力の開発に留まっている。MLLMsが連続的な視覚データを処理する可能性はまだ十分に探求されておらず、その性能を包括的かつ高品質に評価する枠組みが欠如している。本論文では、ビデオ分析におけるMLLMsの初のフルスペクトラムなマルチモーダル評価ベンチマークであるVideo-MMEを紹介する。我々の研究は、以下の4つの主要な特徴により既存のベンチマークと区別される:1)ビデオタイプの多様性、6つの主要な視覚領域と30のサブフィールドにわたる広範なシナリオ一般化を確保;2)時間次元における持続時間、11秒から1時間までの短期、中期、長期のビデオを含む堅牢な文脈ダイナミクス;3)データモダリティの広がり、ビデオフレームに加えて字幕や音声などのマルチモーダル入力を統合し、MLLMsの全方位の能力を明らかにする;4)アノテーションの品質、専門のアノテーターによる厳密な手動ラベリングを活用し、正確で信頼性の高いモデル評価を促進する。900本のビデオ、合計256時間分が手動で選定され、全てのビデオコンテンツを繰り返し視聴することで2,700の質問-回答ペアが生成された。Video-MMEを用いて、GPT-4シリーズやGemini 1.5 Proなどの最先端のMLLMs、およびInternVL-Chat-V1.5やLLaVA-NeXT-Videoなどのオープンソースの画像モデルやビデオモデルを広範に評価した。我々の実験により、Gemini 1.5 Proが最も優れた商用モデルであり、オープンソースモデルを大幅に上回ることが明らかになった。我々のデータセットとこれらの発見は、より長いシーケンスとマルチモーダルデータの処理におけるさらなる改善の必要性を強調している。プロジェクトページ:https://video-mme.github.io
English
In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 256 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io

Summary

AI-Generated Summary

PDF252December 12, 2024