ChatPaper.aiChatPaper

MT-Video-Bench: Um Benchmark Holístico de Compreensão de Vídeo para Avaliação de LLMs Multimodais em Diálogos Multi-Turn

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

October 20, 2025
Autores: Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
cs.AI

Resumo

O recente desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) avançou significativamente a capacidade da IA de compreender modalidades visuais. No entanto, os benchmarks de avaliação existentes permanecem limitados a questionários de resposta única, negligenciando a complexidade dos diálogos multi-turnos em cenários do mundo real. Para preencher essa lacuna, introduzimos o MT-Video-Bench, um benchmark holístico de compreensão de vídeo para avaliar MLLMs em diálogos multi-turnos. Especificamente, nosso MT-Video-Bench avalia principalmente seis competências centrais que focam na perceptividade e interatividade, abrangendo 987 diálogos multi-turnos meticulosamente curados de diversos domínios. Essas capacidades estão rigorosamente alinhadas com aplicações do mundo real, como análise interativa de esportes e tutoria inteligente baseada em vídeo multi-turno. Com o MT-Video-Bench, avaliamos extensivamente vários MLLMs de última geração, tanto de código aberto quanto proprietários, revelando suas discrepâncias significativas de desempenho e limitações no manuseio de diálogos multi-turnos em vídeo. O benchmark estará publicamente disponível para promover pesquisas futuras.
English
The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI's ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.
PDF162October 22, 2025