ChatPaper.aiChatPaper

Video-MME-v2: Op weg naar de volgende fase in benchmarks voor uitgebreide videobegrip

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

April 6, 2026
Auteurs: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI

Samenvatting

Met de snelle vooruitgang in videobegrip raken bestaande benchmarks steeds meer verzadigd, wat een kritieke kloof blootlegt tussen opgeblazen leaderboard-scores en de daadwerkelijke capaciteiten van modellen in de praktijk. Om deze groeiende kloof te dichten, introduceren we Video-MME-v2, een uitgebreide benchmark die ontworpen is om de robuustheid en betrouwbaarheid van videobegrip rigoureus te evalueren. Om modelcapaciteiten systematisch te beoordelen, hebben we een progressieve drielaagse hiërarchie ontworpen die de complexiteit van videobegrip stapsgewijs verhoogt, variërend van aggregatie van multi-punt visuele informatie, naar modellering van temporele dynamiek, en uiteindelijk naar complexe multimodale redenering. Daarnaast stellen we, in tegenstelling tot conventionele nauwkeurigheid per vraag, een op groepen gebaseerde niet-lineaire evaluatiestrategie voor die zowel consistentie tussen gerelateerde queries als samenhang in meerstapsredenering afdwingt. Deze strategie bestraft gefragmenteerde of op gokken gebaseerde correctheid en kent alleen punten toe aan antwoorden die worden ondersteund door geldige redenering. Om de datakwaliteit te garanderen, is Video-MME-v2 opgebouwd via een streng gecontroleerd pijplijnproces voor menselijke annotatie, waarbij 12 annotators en 50 onafhankelijke reviewers betrokken waren. Gestut door 3.300 mensuren en tot wel 5 kwaliteitscontrolecycli, beoogt Video-MME-v2 een van de meest gezaghebbende videobenchmarks te worden. Uitgebreide experimenten tonen een aanzienlijke kloof tussen het huidige beste model Gemini-3-Pro en menselijke experts, en onthullen een duidelijk hiërarchisch knelpunt waarbij fouten in visuele informatie-aggregatie en temporele modellering doorwerken om hoogwaardige redenering te beperken. Verder constateren we dat denkgebaseerde redenering sterk afhankelijk is van tekstuele aanwijzingen, wat de prestaties met ondertitels verbetert maar deze soms verslechtert in puur visuele settings. Door deze beperkingen bloot te leggen, vestigt Video-MME-v2 een veeleisende nieuwe testomgeving voor de ontwikkeling van volgende generatie video-MLLM's.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.
PDF1976April 9, 2026