Video-MME-v2: 포괄적 비디오 이해를 위한 벤치마크의 다음 단계로 나아가다
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
April 6, 2026
저자: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI
초록
비디오 이해 기술의 급속한 발전에 따라 기존 벤치마크는 점차 포화 상태에 이르러, 과장된 리더보드 점수와 실제 모델 성능 간의 심각한 괴리가 드러나고 있습니다. 이러한 격차를 해소하기 위해 우리는 비디오 이해의 견고성과 신뢰성을 엄격하게 평가하기 위한 포괄적인 벤치마크인 Video-MME-v2를 소개합니다. 모델 능력을 체계적으로 평가하기 위해 우리는 다중 지점 시각 정보 통합에서 시간적 동역학 모델링을 거쳐 최종적으로 복잡한 다중모드 추론에 이르기까지 비디오 이해의 복잡성을 점진적으로 증가시키는 진행형 3단계 계층 구조를 설계했습니다. 또한 기존의 질문별 정확도와 달리, 관련 질의 간 일관성과 다단계 추론의 일관성을 동시에 요구하는 그룹 기반 비선형 평가 전략을 제안합니다. 이는 단편적이거나 추측에 기반한 정답을 불이익하며 유효한 추론에 의해 지지되는 답변에만 점수를 부여합니다. 데이터 품질을 보장하기 위해 Video-MME-v2는 12명의 주석자와 50명의 독립 검수자가 참여하는 엄격하게 통제된 인간 주석 파이프라인을 통해 구축되었습니다. 3,300인시의 노동력과 최대 5차례의 품질 보증 과정을 바탕으로, Video-MME-v2는 가장 권위 있는 비디오 벤치마크 중 하나로 자리매김하는 것을 목표로 합니다. 대규모 실험 결과, 현재 최고 모델인 Gemini-3-Pro와 인간 전문가 간에 상당한 성능 차이가 존재하며, 시각 정보 집약 및 시간적 모델링 단계의 오류가 상위 추론을 제한하는 명확한 계층적 병목 현상이 발견되었습니다. 또한 사고 기반 추론이 텍스트 단서에 크게 의존하며, 자막이 있을 때는 성능이 향상되지만 순수 시각적 환경에서는 오히려 성능이 저하될 수 있음을 확인했습니다. 이러한 한계를 드러냄으로써 Video-MME-v2는 차세대 비디오 MLLM 개발을 위한 요구 조건이 높은 새로운 테스트베드를 마련합니다.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.