MT-Video-Bench: Een Holistische Video-begrip Benchmark voor het Evalueren van Multimodale LLM's in Multi-Turn Dialogen
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
October 20, 2025
Auteurs: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI
Samenvatting
De recente ontwikkeling van Multimodale Grote Taalmodellen (MLLMs) heeft het vermogen van AI om visuele modaliteiten te begrijpen aanzienlijk verbeterd. Bestaande evaluatiebenchmarks blijven echter beperkt tot vragen met één beurt, waarbij de complexiteit van dialogen met meerdere beurten in realistische scenario's over het hoofd wordt gezien. Om deze kloof te overbruggen, introduceren wij MT-Video-Bench, een holistische benchmark voor videobegrip om MLLMs te evalueren in dialogen met meerdere beurten. Specifiek beoordeelt onze MT-Video-Bench voornamelijk zes kerncompetenties die zich richten op perceptie en interactiviteit, en omvat 987 zorgvuldig samengestelde dialogen met meerdere beurten uit diverse domeinen. Deze vaardigheden zijn rigoureus afgestemd op realistische toepassingen, zoals interactieve sportanalyse en intelligente tutoring op basis van video's met meerdere beurten. Met MT-Video-Bench evalueren wij uitgebreid verschillende state-of-the-art open-source en closed-source MLLMs, waarbij aanzienlijke prestatieverschillen en beperkingen in het omgaan met videodialogen met meerdere beurten aan het licht komen. De benchmark zal publiekelijk beschikbaar worden gesteld om toekomstig onderzoek te bevorderen.
English
The recent development of Multimodal Large Language Models (MLLMs) has
significantly advanced AI's ability to understand visual modalities. However,
existing evaluation benchmarks remain limited to single-turn question
answering, overlooking the complexity of multi-turn dialogues in real-world
scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video
understanding benchmark for evaluating MLLMs in multi-turn dialogues.
Specifically, our MT-Video-Bench mainly assesses six core competencies that
focus on perceptivity and interactivity, encompassing 987 meticulously curated
multi-turn dialogues from diverse domains. These capabilities are rigorously
aligned with real-world applications, such as interactive sports analysis and
multi-turn video-based intelligent tutoring. With MT-Video-Bench, we
extensively evaluate various state-of-the-art open-source and closed-source
MLLMs, revealing their significant performance discrepancies and limitations in
handling multi-turn video dialogues. The benchmark will be publicly available
to foster future research.