MVU-Eval: マルチモーダル大規模言語モデルのためのマルチ動画理解評価に向けて
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
November 10, 2025
著者: Tianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の登場により、AIの能力は視覚モダリティにまで拡張されたが、既存の評価ベンチマークは単一映像理解に限定されており、実世界のシナリオ(スポーツ分析や自動運転など)において重要なマルチ映像理解の必要性が見落とされている。この重要な課題を解決するため、我々はMLLMのマルチ映像理解能力を評価する初の包括的ベンチマーク「MVU-Eval」を提案する。具体的には、4,959本の多様な領域の映像から精選された1,824組の質問応答ペアを通じて、基礎的な知覚タスクから高次推論タスクまで、8つの核心的能力を主に評価する。これらの能力は、自律システムにおけるマルチセンサー統合や複数角度からのスポーツ分析など、実世界の応用と厳密に連携している。オープンソース及びクローズドソースの最先端モデルを広範に評価した結果、現行のMLLMには複数映像にわたる理解を遂行する能力において、重大な性能差と限界が存在することを明らかにした。今後の研究発展のため、本ベンチマークは公開予定である。
English
The advent of Multimodal Large Language Models (MLLMs) has expanded AI
capabilities to visual modalities, yet existing evaluation benchmarks remain
limited to single-video understanding, overlooking the critical need for
multi-video understanding in real-world scenarios (e.g., sports analytics and
autonomous driving). To address this significant gap, we introduce MVU-Eval,
the first comprehensive benchmark for evaluating Multi-Video Understanding for
MLLMs. Specifically, our MVU-Eval mainly assesses eight core competencies
through 1,824 meticulously curated question-answer pairs spanning 4,959 videos
from diverse domains, addressing both fundamental perception tasks and
high-order reasoning tasks. These capabilities are rigorously aligned with
real-world applications such as multi-sensor synthesis in autonomous systems
and cross-angle sports analytics. Through extensive evaluation of
state-of-the-art open-source and closed-source models, we reveal significant
performance discrepancies and limitations in current MLLMs' ability to perform
understanding across multiple videos. The benchmark will be made publicly
available to foster future research.