MT-Video-Bench: 다중 턴 대화에서 멀티모달 LLM 평가를 위한 통합 비디오 이해 벤치마크
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
October 20, 2025
저자: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 AI의 시각적 양식 이해 능력을 크게 향상시켰습니다. 그러나 기존의 평가 벤치마크는 단일 턴 질의응답에 국한되어 있어, 실제 시나리오에서의 다중 턴 대화 복잡성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 다중 턴 대화에서 MLLM을 평가하기 위한 종합적인 비디오 이해 벤치마크인 MT-Video-Bench를 소개합니다. 구체적으로, MT-Video-Bench는 지각력과 상호작용성에 초점을 맞춘 6가지 핵심 역량을 주로 평가하며, 다양한 도메인에서 신중하게 선별된 987개의 다중 턴 대화를 포함합니다. 이러한 역량은 인터랙티브 스포츠 분석 및 다중 턴 비디오 기반 지능형 튜터링과 같은 실제 응용 프로그램과 엄격하게 연계되어 있습니다. MT-Video-Bench를 통해 우리는 다양한 최첨단 오픈소스 및 클로즈드소스 MLLM을 광범위하게 평가하고, 다중 턴 비디오 대화 처리에서의 상당한 성능 차이와 한계를 밝혀냈습니다. 이 벤치마크는 향후 연구를 촉진하기 위해 공개될 예정입니다.
English
The recent development of Multimodal Large Language Models (MLLMs) has
significantly advanced AI's ability to understand visual modalities. However,
existing evaluation benchmarks remain limited to single-turn question
answering, overlooking the complexity of multi-turn dialogues in real-world
scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video
understanding benchmark for evaluating MLLMs in multi-turn dialogues.
Specifically, our MT-Video-Bench mainly assesses six core competencies that
focus on perceptivity and interactivity, encompassing 987 meticulously curated
multi-turn dialogues from diverse domains. These capabilities are rigorously
aligned with real-world applications, such as interactive sports analysis and
multi-turn video-based intelligent tutoring. With MT-Video-Bench, we
extensively evaluate various state-of-the-art open-source and closed-source
MLLMs, revealing their significant performance discrepancies and limitations in
handling multi-turn video dialogues. The benchmark will be publicly available
to foster future research.