Video-MME-v2: Verso la Prossima Fase nei Benchmark per la Comprensione Video Completa

Abstract

Con il rapido avanzamento della comprensione video, i benchmark esistenti stanno diventando sempre più saturi, rivelando una discrepanza critica tra i punteggi gonfiati delle classifiche e le capacità reali dei modelli. Per affrontare questo divario crescente, introduciamo Video-MME-v2, un benchmark completo progettato per valutare rigorosamente la robustezza e l'affidabilità della comprensione video. Per valutare sistematicamente le capacità dei modelli, abbiamo progettato una gerarchia progressiva a tre livelli che incrementa gradualmente la complessità della comprensione video, spaziando dall'aggregazione di informazioni visive multi-punto, alla modellazione delle dinamiche temporali, fino al ragionamento multimodale complesso. Inoltre, a differenza della tradizionale accuratezza per domanda, proponiamo una strategia di valutazione non lineare basata su gruppi che impone sia la coerenza tra query correlate sia la coerenza nel ragionamento a più passi. Questa penalizza la correttezza frammentata o basata su congetture e attribuisce merito solo alle risposte supportate da un ragionamento valido. Per garantire la qualità dei dati, Video-MME-v2 è costruito attraverso una pipeline di annotazione umana rigorosamente controllata, che coinvolge 12 annotatori e 50 revisori indipendenti. Supportato da 3.300 ore uomo e fino a 5 round di controllo qualità, Video-MME-v2 mira a diventare uno dei benchmark video più autorevoli. Esperimenti estensivi rivelano un divario sostanziale tra l'attuale miglior modello (Gemini-3-Pro) e gli esperti umani, e individuano un chiaro collo di bottiglia gerarchico in cui gli errori nell'aggregazione delle informazioni visive e nella modellazione temporale si propagano limitando il ragionamento di alto livello. Scopriamo inoltre che il ragionamento basato sul pensiero è fortemente dipendente dagli indizi testuali, migliorando le prestazioni con i sottotitoli ma a volte peggiorandole in contesti puramente visivi. Mettendo in luce queste limitazioni, Video-MME-v2 stabilisce un nuovo e impegnativo banco di prova per lo sviluppo di MLLM video di prossima generazione.

English

With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.