MVU-Eval: Hacia una Evaluación de la Comprensión Multi-Video para Modelos de Lenguaje Multimodales
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
November 10, 2025
Autores: Tianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
Resumen
El advenimiento de los Modelos de Lenguaje Grandes Multimodales (MLLMs) ha expandido las capacidades de la IA a modalidades visuales; sin embargo, los puntos de referencia de evaluación existentes se limitan a la comprensión de vídeos individuales, pasando por alto la necesidad crítica de comprensión multi-vídeo en escenarios del mundo real (por ejemplo, análisis deportivos y conducción autónoma). Para abordar esta brecha significativa, presentamos MVU-Eval, el primer punto de referencia integral para evaluar la Comprensión Multi-Vídeo en MLLMs. Específicamente, nuestro MVU-Eval evalúa principalmente ocho competencias fundamentales a través de 1.824 pares de preguntas y respuestas meticulosamente seleccionados, que abarcan 4.959 vídeos de diversos dominios, abordando tanto tareas de percepción básica como tareas de razonamiento de orden superior. Estas capacidades están rigurosamente alineadas con aplicaciones del mundo real, como la síntesis multi-sensor en sistemas autónomos y el análisis deportivo desde múltiples ángulos. Mediante una evaluación exhaustiva de modelos de código abierto y privativos de última generación, revelamos discrepancias de rendimiento significativas y limitaciones en la capacidad de los MLLMs actuales para realizar comprensión a través de múltiples vídeos. El punto de referencia estará disponible públicamente para impulsar la investigación futura.
English
The advent of Multimodal Large Language Models (MLLMs) has expanded AI
capabilities to visual modalities, yet existing evaluation benchmarks remain
limited to single-video understanding, overlooking the critical need for
multi-video understanding in real-world scenarios (e.g., sports analytics and
autonomous driving). To address this significant gap, we introduce MVU-Eval,
the first comprehensive benchmark for evaluating Multi-Video Understanding for
MLLMs. Specifically, our MVU-Eval mainly assesses eight core competencies
through 1,824 meticulously curated question-answer pairs spanning 4,959 videos
from diverse domains, addressing both fundamental perception tasks and
high-order reasoning tasks. These capabilities are rigorously aligned with
real-world applications such as multi-sensor synthesis in autonomous systems
and cross-angle sports analytics. Through extensive evaluation of
state-of-the-art open-source and closed-source models, we reveal significant
performance discrepancies and limitations in current MLLMs' ability to perform
understanding across multiple videos. The benchmark will be made publicly
available to foster future research.