Video-MME-v2: На пути к следующему этапу в создании эталонов для всестороннего понимания видео
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
April 6, 2026
Авторы: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI
Аннотация
Стремительное развитие понимания видео привело к возрастающей насыщенности существующих бенчмарков, выявив критическое несоответствие между завышенными результатами в рейтингах и реальными возможностями моделей. Для преодоления этого растущего разрыва мы представляем Video-MME-v2 — всеобъемлющий бенчмарк, предназначенный для строгой оценки устойчивости и достоверности понимания видео. Для систематической оценки возможностей моделей мы разработали прогрессивную трехуровневую иерархию, которая поэтапно наращивает сложность понимания видео: от агрегации многоточечной визуальной информации к моделированию временной динамики и, наконец, к сложному мультимодальному рассуждению. В отличие от традиционной точности на один вопрос, мы предлагаем групповую нелинейную стратегию оценки, которая обеспечивает как согласованность ответов на связанные запросы, так и последовательность многошаговых рассуждений. Эта стратегия штрафует фрагментарную или основанную на догадках правильность и засчитывает только ответы, подкрепленные обоснованными рассуждениями. Для гарантии качества данных Video-MME-v2 создан с помощью строго контролируемого конвейера человеческой разметки с участием 12 аннотаторов и 50 независимых рецензентов. Подкрепленный 3300 человеко-часами и до 5 раундами контроля качества, Video-MME-v2 призван стать одним из наиболее авторитетных видео-бенчмарков. Масштабные эксперименты выявляют существенный разрыв между текущей лучшей моделью Gemini-3-Pro и экспертами-людьми, а также обнаруживают четкий иерархический барьер: ошибки в агрегации визуальной информации и временном моделировании накапливаются и ограничивают возможности логического вывода высокого уровня. Мы также обнаружили, что рассуждения, основанные на мышлении, сильно зависят от текстовых подсказок, улучшая производительность при наличии субтитров, но иногда ухудшая ее в чисто визуальных условиях. Выявляя эти ограничения, Video-MME-v2 устанавливает новый требовательный полигон для разработки видеомоделей следующего поколения с поддержкой нескольких мод.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.