ChatPaper.aiChatPaper

Video-MME-v2: Verso la Prossima Fase nei Benchmark per la Comprensione Video Completa

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

April 6, 2026
Autori: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI

Abstract

Con il rapido avanzamento della comprensione video, i benchmark esistenti stanno diventando sempre più saturi, rivelando una discrepanza critica tra i punteggi gonfiati delle classifiche e le capacità reali dei modelli. Per affrontare questo divario crescente, introduciamo Video-MME-v2, un benchmark completo progettato per valutare rigorosamente la robustezza e l'affidabilità della comprensione video. Per valutare sistematicamente le capacità dei modelli, abbiamo progettato una gerarchia progressiva a tre livelli che incrementa gradualmente la complessità della comprensione video, spaziando dall'aggregazione di informazioni visive multi-punto, alla modellazione delle dinamiche temporali, fino al ragionamento multimodale complesso. Inoltre, a differenza della tradizionale accuratezza per domanda, proponiamo una strategia di valutazione non lineare basata su gruppi che impone sia la coerenza tra query correlate sia la coerenza nel ragionamento a più passi. Questa penalizza la correttezza frammentata o basata su congetture e attribuisce merito solo alle risposte supportate da un ragionamento valido. Per garantire la qualità dei dati, Video-MME-v2 è costruito attraverso una pipeline di annotazione umana rigorosamente controllata, che coinvolge 12 annotatori e 50 revisori indipendenti. Supportato da 3.300 ore uomo e fino a 5 round di controllo qualità, Video-MME-v2 mira a diventare uno dei benchmark video più autorevoli. Esperimenti estensivi rivelano un divario sostanziale tra l'attuale miglior modello (Gemini-3-Pro) e gli esperti umani, e individuano un chiaro collo di bottiglia gerarchico in cui gli errori nell'aggregazione delle informazioni visive e nella modellazione temporale si propagano limitando il ragionamento di alto livello. Scopriamo inoltre che il ragionamento basato sul pensiero è fortemente dipendente dagli indizi testuali, migliorando le prestazioni con i sottotitoli ma a volte peggiorandole in contesti puramente visivi. Mettendo in luce queste limitazioni, Video-MME-v2 stabilisce un nuovo e impegnativo banco di prova per lo sviluppo di MLLM video di prossima generazione.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.
PDF1976April 9, 2026