MVU-Eval: 멀티모달 LLM을 위한 다중 비디오 이해 평가 방향
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
November 10, 2025
저자: Tianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
초록
다중 양식 대형 언어 모델(MLLMs)의 등장으로 AI의 능력이 시각 양식으로 확장되었으나, 기존 평가 벤치마크는 단일 영상 이해에 국한되어 실제 시나리오(예: 스포츠 분석 및 자율 주행)에서 중요한 다중 영상 이해 필요성을 간과해 왔습니다. 이러한 중대한 격차를 해결하기 위해 본 논문에서는 MLLMs의 다중 영상 이해 능력을 평가하는 최초의 포괄적 벤치마크인 MVU-Eval을 소개합니다. 구체적으로, MVU-Eval은 다양한 분야의 4,959개 영상에 걸쳐 정교하게 구성된 1,824개의 질문-답변 쌍을 통해 8가지 핵심 역량을 평가하며, 기본 인식 작업과 고차원 추론 작업을 모두 다룹니다. 이러한 역량은 자율 시스템의 다중 센서 합성 및 교차 각도 스포츠 분석과 같은 실제 적용 사례와 엄격하게 연계되었습니다. 최첨단 오픈소스 및 클로즈드소스 모델에 대한 광범위한 평가를 통해, 현재 MLLMs의 다중 영상 이해 수행 능력에서 존재하는 상당한 성능 격차와 한계를 규명합니다. 본 벤치마크는 향후 연구 발전을 위해 공개될 예정입니다.
English
The advent of Multimodal Large Language Models (MLLMs) has expanded AI
capabilities to visual modalities, yet existing evaluation benchmarks remain
limited to single-video understanding, overlooking the critical need for
multi-video understanding in real-world scenarios (e.g., sports analytics and
autonomous driving). To address this significant gap, we introduce MVU-Eval,
the first comprehensive benchmark for evaluating Multi-Video Understanding for
MLLMs. Specifically, our MVU-Eval mainly assesses eight core competencies
through 1,824 meticulously curated question-answer pairs spanning 4,959 videos
from diverse domains, addressing both fundamental perception tasks and
high-order reasoning tasks. These capabilities are rigorously aligned with
real-world applications such as multi-sensor synthesis in autonomous systems
and cross-angle sports analytics. Through extensive evaluation of
state-of-the-art open-source and closed-source models, we reveal significant
performance discrepancies and limitations in current MLLMs' ability to perform
understanding across multiple videos. The benchmark will be made publicly
available to foster future research.