Video-MME-v2: Auf dem Weg zur nächsten Stufe von Benchmarks für umfassendes Video-Verständnis
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
April 6, 2026
Autoren: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI
Zusammenfassung
Mit dem raschen Fortschritt im Bereich des Videoverständnisses nähern sich bestehende Benchmarks zunehmend der Sättigung, was eine kritische Diskrepanz zwischen aufgeblähten Leaderboard-Werten und den realen Modellfähigkeiten offenbart. Um diese wachsende Lücke zu schließen, führen wir Video-MME-v2 ein, einen umfassenden Benchmark, der entwickelt wurde, um die Robustheit und Zuverlässigkeit des Videoverständnisses rigoros zu bewerten. Um Modellfähigkeiten systematisch zu evaluieren, entwerfen wir eine progressive dreistufige Hierarchie, die die Komplexität des Videoverständnisses schrittweise erhöht – von der Aggregation multipelter visueller Informationen über die Modellierung zeitlicher Dynamiken bis hin zu komplexem multimodalen Reasoning. Im Gegensatz zur konventionellen Genauigkeit pro Frage schlagen wir zudem eine gruppenbasierte, nicht-lineare Bewertungsstrategie vor, die sowohl Konsistenz über verwandte Anfragen hinweg als auch Kohärenz bei mehrschrittigen Denkprozessen erzwingt. Sie bestraft fragmentierte oder auf Raten basierende Korrektheit und honoriert nur Antworten, die durch valides Reasoning gestützt werden. Um die Datenqualität zu gewährleisten, wird Video-MME-v2 durch einen streng kontrollierten menschlichen Annotationsprozess erstellt, an dem 12 Annotatoren und 50 unabhängige Prüfer beteiligt sind. Gestützt auf 3.300 Arbeitsstunden und bis zu 5 Qualitätssicherungsrunden zielt Video-MME-v2 darauf ab, einer der maßgeblichsten Video-Benchmarks zu sein. Umfangreiche Experimente zeigen eine erhebliche Lücke zwischen dem derzeit besten Modell Gemini-3-Pro und menschlichen Experten auf und decken einen klaren hierarchischen Engpass auf, bei dem Fehler in der visuellen Informationsaggregation und zeitlichen Modellierung weitergetragen werden und höherstufiges Reasoning limitieren. Wir stellen weiterhin fest, dass denkbasierte Schlussfolgerungen stark von textuellen Hinweisen abhängen; die Leistung verbessert sich mit Untertiteln, verschlechtert sich aber manchmal in rein visuellen Settings. Indem Video-MME-v2 diese Grenzen aufzeigt, etabliert es ein anspruchsvolles neues Testfeld für die Entwicklung von Video-MLLMs der nächsten Generation.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.