MT-Video-Bench: Ein ganzheitlicher Benchmark für das Verständnis von Videos zur Bewertung multimodaler LLMs in mehrschrittigen Dialogen
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
October 20, 2025
papers.authors: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI
papers.abstract
Die jüngste Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Fähigkeit der KI, visuelle Modalitäten zu verstehen, erheblich vorangetrieben. Bestehende Evaluierungsbenchmarks beschränken sich jedoch auf Einzelgespräch-Fragen, wodurch die Komplexität von Mehrfachgesprächen in realen Szenarien übersehen wird. Um diese Lücke zu schließen, führen wir MT-Video-Bench ein, einen ganzheitlichen Benchmark für das Verständnis von Videos, der MLLMs in Mehrfachgesprächen bewertet. Insbesondere bewertet unser MT-Video-Bench hauptsächlich sechs Kernkompetenzen, die sich auf Wahrnehmungsfähigkeit und Interaktivität konzentrieren und 987 sorgfältig kuratierte Mehrfachgespräche aus verschiedenen Domänen umfassen. Diese Fähigkeiten sind streng an reale Anwendungen wie interaktive Sportanalysen und mehrfache videobasierte intelligente Tutoring-Systeme angepasst. Mit MT-Video-Bench evaluieren wir umfassend verschiedene state-of-the-art Open-Source- und Closed-Source-MLLMs und decken deren erhebliche Leistungsunterschiede und Grenzen bei der Handhabung von Mehrfachgesprächen in Videos auf. Der Benchmark wird öffentlich zugänglich sein, um zukünftige Forschung zu fördern.
English
The recent development of Multimodal Large Language Models (MLLMs) has
significantly advanced AI's ability to understand visual modalities. However,
existing evaluation benchmarks remain limited to single-turn question
answering, overlooking the complexity of multi-turn dialogues in real-world
scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video
understanding benchmark for evaluating MLLMs in multi-turn dialogues.
Specifically, our MT-Video-Bench mainly assesses six core competencies that
focus on perceptivity and interactivity, encompassing 987 meticulously curated
multi-turn dialogues from diverse domains. These capabilities are rigorously
aligned with real-world applications, such as interactive sports analysis and
multi-turn video-based intelligent tutoring. With MT-Video-Bench, we
extensively evaluate various state-of-the-art open-source and closed-source
MLLMs, revealing their significant performance discrepancies and limitations in
handling multi-turn video dialogues. The benchmark will be publicly available
to foster future research.