ChatPaper.aiChatPaper

MT-Video-Bench: Комплексный бенчмарк для оценки понимания видео в многомодальных языковых моделях в рамках многоходовых диалогов

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

October 20, 2025
Авторы: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI

Аннотация

Недавнее развитие мультимодальных больших языковых моделей (MLLM) значительно продвинуло способности ИИ в понимании визуальных модальностей. Однако существующие оценочные тесты ограничиваются одношаговыми вопросами и ответами, упуская из виду сложность многошаговых диалогов в реальных сценариях. Чтобы устранить этот пробел, мы представляем MT-Video-Bench — комплексный тест для оценки понимания видео в многошаговых диалогах. В частности, наш MT-Video-Bench в основном оценивает шесть ключевых компетенций, сосредоточенных на восприятии и интерактивности, охватывая 987 тщательно отобранных многошаговых диалогов из различных областей. Эти способности строго соответствуют реальным приложениям, таким как интерактивный анализ спортивных событий и многошаговое интеллектуальное обучение на основе видео. С помощью MT-Video-Bench мы всесторонне оцениваем различные передовые открытые и закрытые MLLM, выявляя значительные различия в их производительности и ограничения в обработке многошаговых видео-диалогов. Тест будет общедоступен для стимулирования будущих исследований.
English
The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI's ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.
PDF162October 22, 2025