MT-Video-Bench: マルチターン対話におけるマルチモーダルLLMを評価するための包括的ビデオ理解ベンチマーク
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
October 20, 2025
著者: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLM)の発展により、AIの視覚モダリティ理解能力が大幅に向上しました。しかし、既存の評価ベンチマークは単一ターンの質問応答に限定されており、現実世界のシナリオにおける多段階対話の複雑性を見落としています。このギャップを埋めるため、我々はMT-Video-Benchを導入します。これは、多段階対話におけるMLLMを評価するための包括的な映像理解ベンチマークです。具体的には、MT-Video-Benchは主に知覚性と相互作用性に焦点を当てた6つのコア能力を評価し、多様なドメインから厳選された987の多段階対話を網羅しています。これらの能力は、インタラクティブなスポーツ分析や多段階の映像ベースのインテリジェントチュータリングなど、現実世界のアプリケーションと厳密に連携しています。MT-Video-Benchを用いて、我々は様々な最先端のオープンソースおよびクローズドソースのMLLMを広範に評価し、多段階映像対話の処理におけるそれらの顕著な性能差と限界を明らかにしました。このベンチマークは、今後の研究を促進するために公開されます。
English
The recent development of Multimodal Large Language Models (MLLMs) has
significantly advanced AI's ability to understand visual modalities. However,
existing evaluation benchmarks remain limited to single-turn question
answering, overlooking the complexity of multi-turn dialogues in real-world
scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video
understanding benchmark for evaluating MLLMs in multi-turn dialogues.
Specifically, our MT-Video-Bench mainly assesses six core competencies that
focus on perceptivity and interactivity, encompassing 987 meticulously curated
multi-turn dialogues from diverse domains. These capabilities are rigorously
aligned with real-world applications, such as interactive sports analysis and
multi-turn video-based intelligent tutoring. With MT-Video-Bench, we
extensively evaluate various state-of-the-art open-source and closed-source
MLLMs, revealing their significant performance discrepancies and limitations in
handling multi-turn video dialogues. The benchmark will be publicly available
to foster future research.