ChatPaper.aiChatPaper

MVU-Eval: Op weg naar een evaluatie van multi-videobegrip voor multimodale grote taalmodellen

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

November 10, 2025
Auteurs: Tianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Samenvatting

De opkomst van Multimodale Large Language Models (MLLM's) heeft de mogelijkheden van AI uitgebreid naar visuele modaliteiten, maar bestaande evaluatiebenchmarks blijven beperkt tot het begrip van enkele video's. Hierbij wordt de kritische behoefte aan begrip van meerdere video's in realistische scenario's (zoals sportanalyse en autonoom rijden) over het hoofd gezien. Om deze significante leemte aan te pakken, introduceren wij MVU-Eval, de eerste uitgebreide benchmark voor het evalueren van Multi-Video Understanding voor MLLM's. Concreet beoordeelt onze MVU-Eval voornamelijk acht kerncompetenties aan de hand van 1.824 zorgvuldig samengestelde vraag-antwoordparen, verspreid over 4.959 video's uit diverse domeinen. Hierbij worden zowel fundamentele perceptietaken als taken voor hogere-orde-redenering aangepakt. Deze capaciteiten zijn rigoureus afgestemd op realistische toepassingen zoals multi-sensorsynthese in autonome systemen en sportanalyse vanuit verschillende hoeken. Door uitgebreide evaluatie van state-of-the-art open-source en closed-source modellen, onthullen we significante prestatieverschillen en beperkingen in het huidige vermogen van MLLM's om begrip over meerdere video's te demonstreren. De benchmark zal publiekelijk beschikbaar worden gesteld om toekomstig onderzoek te bevorderen.
English
The advent of Multimodal Large Language Models (MLLMs) has expanded AI capabilities to visual modalities, yet existing evaluation benchmarks remain limited to single-video understanding, overlooking the critical need for multi-video understanding in real-world scenarios (e.g., sports analytics and autonomous driving). To address this significant gap, we introduce MVU-Eval, the first comprehensive benchmark for evaluating Multi-Video Understanding for MLLMs. Specifically, our MVU-Eval mainly assesses eight core competencies through 1,824 meticulously curated question-answer pairs spanning 4,959 videos from diverse domains, addressing both fundamental perception tasks and high-order reasoning tasks. These capabilities are rigorously aligned with real-world applications such as multi-sensor synthesis in autonomous systems and cross-angle sports analytics. Through extensive evaluation of state-of-the-art open-source and closed-source models, we reveal significant performance discrepancies and limitations in current MLLMs' ability to perform understanding across multiple videos. The benchmark will be made publicly available to foster future research.
PDF172December 2, 2025