MT-Video-Bench: Un Punto de Referencia Integral para la Comprensión de Videos en la Evaluación de Modelos de Lenguaje Multimodales en Diálogos de Múltiples Turnos
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
October 20, 2025
Autores: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI
Resumen
El reciente desarrollo de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha avanzado significativamente la capacidad de la IA para comprender modalidades visuales. Sin embargo, los puntos de referencia de evaluación existentes se limitan a respuestas de preguntas de un solo turno, pasando por alto la complejidad de los diálogos de múltiples turnos en escenarios del mundo real. Para cerrar esta brecha, presentamos MT-Video-Bench, un punto de referencia holístico para la comprensión de videos que evalúa MLLMs en diálogos de múltiples turnos. Específicamente, nuestro MT-Video-Bench evalúa principalmente seis competencias centrales que se centran en la percepción y la interactividad, abarcando 987 diálogos de múltiples turnos cuidadosamente seleccionados de diversos dominios. Estas capacidades están rigurosamente alineadas con aplicaciones del mundo real, como el análisis interactivo de deportes y la tutoría inteligente basada en videos de múltiples turnos. Con MT-Video-Bench, evaluamos extensamente varios MLLMs de última generación, tanto de código abierto como cerrado, revelando sus discrepancias significativas en el rendimiento y limitaciones en el manejo de diálogos de video de múltiples turnos. El punto de referencia estará disponible públicamente para fomentar futuras investigaciones.
English
The recent development of Multimodal Large Language Models (MLLMs) has
significantly advanced AI's ability to understand visual modalities. However,
existing evaluation benchmarks remain limited to single-turn question
answering, overlooking the complexity of multi-turn dialogues in real-world
scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video
understanding benchmark for evaluating MLLMs in multi-turn dialogues.
Specifically, our MT-Video-Bench mainly assesses six core competencies that
focus on perceptivity and interactivity, encompassing 987 meticulously curated
multi-turn dialogues from diverse domains. These capabilities are rigorously
aligned with real-world applications, such as interactive sports analysis and
multi-turn video-based intelligent tutoring. With MT-Video-Bench, we
extensively evaluate various state-of-the-art open-source and closed-source
MLLMs, revealing their significant performance discrepancies and limitations in
handling multi-turn video dialogues. The benchmark will be publicly available
to foster future research.