MT-Video-Bench : Un benchmark holistique de compréhension vidéo pour l'évaluation des LLM multimodaux dans les dialogues multi-tours
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
October 20, 2025
papers.authors: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI
papers.abstract
Le développement récent des modèles de langage multimodaux de grande envergure (MLLMs) a considérablement amélioré la capacité de l'IA à comprendre les modalités visuelles. Cependant, les benchmarks d'évaluation existants se limitent principalement à des questions-réponses en un seul tour, négligeant ainsi la complexité des dialogues multi-tours dans les scénarios réels. Pour combler cette lacune, nous introduisons MT-Video-Bench, un benchmark holistique de compréhension vidéo conçu pour évaluer les MLLMs dans des dialogues multi-tours. Plus précisément, notre MT-Video-Bench évalue principalement six compétences fondamentales axées sur la perceptivité et l'interactivité, englobant 987 dialogues multi-tours soigneusement sélectionnés dans divers domaines. Ces capacités sont rigoureusement alignées avec des applications réelles, telles que l'analyse interactive de sports et le tutorat intelligent basé sur des vidéos multi-tours. Avec MT-Video-Bench, nous évaluons de manière approfondie divers MLLMs open-source et propriétaires de pointe, révélant des écarts de performance significatifs et des limites dans la gestion des dialogues vidéo multi-tours. Le benchmark sera rendu public pour favoriser les recherches futures.
English
The recent development of Multimodal Large Language Models (MLLMs) has
significantly advanced AI's ability to understand visual modalities. However,
existing evaluation benchmarks remain limited to single-turn question
answering, overlooking the complexity of multi-turn dialogues in real-world
scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video
understanding benchmark for evaluating MLLMs in multi-turn dialogues.
Specifically, our MT-Video-Bench mainly assesses six core competencies that
focus on perceptivity and interactivity, encompassing 987 meticulously curated
multi-turn dialogues from diverse domains. These capabilities are rigorously
aligned with real-world applications, such as interactive sports analysis and
multi-turn video-based intelligent tutoring. With MT-Video-Bench, we
extensively evaluate various state-of-the-art open-source and closed-source
MLLMs, revealing their significant performance discrepancies and limitations in
handling multi-turn video dialogues. The benchmark will be publicly available
to foster future research.