ChatPaper.aiChatPaper

Video-MME-v2 : Vers une nouvelle étape dans les benchmarks pour une compréhension vidéo complète

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

April 6, 2026
Auteurs: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI

Résumé

Avec les progrès rapides de la compréhension vidéo, les benchmarks existants atteignent progressivement la saturation, révélant un écart critique entre les scores gonflés sur les classements et les capacités réelles des modèles en situation réelle. Pour combler ce fossé grandissant, nous présentons Video-MME-v2, un benchmark complet conçu pour évaluer rigoureusement la robustesse et la fiabilité de la compréhension vidéo. Afin d'évaluer systématiquement les capacités des modèles, nous concevons une hiérarchie progressive à trois niveaux qui accroît graduellement la complexité de la compréhension vidéo, allant de l'agrégation d'informations visuelles multi-points, à la modélisation de la dynamique temporelle, et aboutissant au raisonnement multimodal complexe. Par ailleurs, contrairement à la précision par question conventionnelle, nous proposons une stratégie d'évaluation non-linéaire par groupes qui impose à la fois la cohérence entre les requêtes apparentées et la logique dans le raisonnement à plusieurs étapes. Elle pénalise les réponses correctes mais fragmentées ou basées sur des conjectures, et n'accorde de crédit qu'aux réponses étayées par un raisonnement valide. Pour garantir la qualité des données, Video-MME-v2 est construit via un pipeline d'annotation humaine rigoureusement contrôlé, impliquant 12 annotateurs et 50 relecteurs indépendants. Soutenu par 3 300 heures de travail humain et jusqu'à 5 cycles d'assurance qualité, Video-MME-v2 vise à devenir l'un des benchmarks vidéo les plus autoritaires. Des expériences approfondies révèlent un écart substantiel entre le meilleur modèle actuel, Gemini-3-Pro, et les experts humains, et mettent en lumière un goulot d'étranglement hiérarchique clair : les erreurs dans l'agrégation d'informations visuelles et la modélisation temporelle se propagent pour limiter le raisonnement de haut niveau. Nous constatons en outre que le raisonnement de type "pensée" est fortement dépendant des indices textuels, améliorant les performances avec les sous-titres mais les dégradant parfois dans des contextes purement visuels. En exposant ces limitations, Video-MME-v2 établit un nouveau banc d'essai exigeant pour le développement de la prochaine génération de MLLMs vidéo.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.
PDF1976April 9, 2026