ChatPaper.aiChatPaper

MT-Video-Bench: Un Benchmark Olistico per la Comprensione Video per Valutare Modelli Linguistici Multimodali in Dialoghi Multi-Turn

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

October 20, 2025
Autori: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI

Abstract

Il recente sviluppo dei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) ha significativamente migliorato la capacità dell'IA di comprendere le modalità visive. Tuttavia, gli attuali benchmark di valutazione rimangono limitati a risposte a domande a turno singolo, trascurando la complessità dei dialoghi multi-turn negli scenari del mondo reale. Per colmare questa lacuna, introduciamo MT-Video-Bench, un benchmark olistico per la comprensione video progettato per valutare gli MLLMs nei dialoghi multi-turn. Nello specifico, il nostro MT-Video-Bench valuta principalmente sei competenze fondamentali che si concentrano sulla percettività e l'interattività, comprendendo 987 dialoghi multi-turn accuratamente curati provenienti da diversi domini. Queste capacità sono rigorosamente allineate con applicazioni del mondo reale, come l'analisi sportiva interattiva e il tutoraggio intelligente basato su video multi-turn. Con MT-Video-Bench, valutiamo estensivamente vari MLLMs open-source e closed-source all'avanguardia, rivelando le loro significative discrepanze di prestazioni e limitazioni nella gestione dei dialoghi video multi-turn. Il benchmark sarà reso pubblicamente disponibile per promuovere la ricerca futura.
English
The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI's ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.
PDF162October 22, 2025