MVU-Eval: Hacia una Evaluación de la Comprensión Multi-Video para Modelos de Lenguaje Multimodales

Resumen

El advenimiento de los Modelos de Lenguaje Grandes Multimodales (MLLMs) ha expandido las capacidades de la IA a modalidades visuales; sin embargo, los puntos de referencia de evaluación existentes se limitan a la comprensión de vídeos individuales, pasando por alto la necesidad crítica de comprensión multi-vídeo en escenarios del mundo real (por ejemplo, análisis deportivos y conducción autónoma). Para abordar esta brecha significativa, presentamos MVU-Eval, el primer punto de referencia integral para evaluar la Comprensión Multi-Vídeo en MLLMs. Específicamente, nuestro MVU-Eval evalúa principalmente ocho competencias fundamentales a través de 1.824 pares de preguntas y respuestas meticulosamente seleccionados, que abarcan 4.959 vídeos de diversos dominios, abordando tanto tareas de percepción básica como tareas de razonamiento de orden superior. Estas capacidades están rigurosamente alineadas con aplicaciones del mundo real, como la síntesis multi-sensor en sistemas autónomos y el análisis deportivo desde múltiples ángulos. Mediante una evaluación exhaustiva de modelos de código abierto y privativos de última generación, revelamos discrepancias de rendimiento significativas y limitaciones en la capacidad de los MLLMs actuales para realizar comprensión a través de múltiples vídeos. El punto de referencia estará disponible públicamente para impulsar la investigación futura.

English

The advent of Multimodal Large Language Models (MLLMs) has expanded AI capabilities to visual modalities, yet existing evaluation benchmarks remain limited to single-video understanding, overlooking the critical need for multi-video understanding in real-world scenarios (e.g., sports analytics and autonomous driving). To address this significant gap, we introduce MVU-Eval, the first comprehensive benchmark for evaluating Multi-Video Understanding for MLLMs. Specifically, our MVU-Eval mainly assesses eight core competencies through 1,824 meticulously curated question-answer pairs spanning 4,959 videos from diverse domains, addressing both fundamental perception tasks and high-order reasoning tasks. These capabilities are rigorously aligned with real-world applications such as multi-sensor synthesis in autonomous systems and cross-angle sports analytics. Through extensive evaluation of state-of-the-art open-source and closed-source models, we reveal significant performance discrepancies and limitations in current MLLMs' ability to perform understanding across multiple videos. The benchmark will be made publicly available to foster future research.

MVU-Eval: Hacia una Evaluación de la Comprensión Multi-Video para Modelos de Lenguaje Multimodales

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Resumen

Support