Video-MME-v2: На пути к следующему этапу в создании эталонов для всестороннего понимания видео

Аннотация

Стремительное развитие понимания видео привело к возрастающей насыщенности существующих бенчмарков, выявив критическое несоответствие между завышенными результатами в рейтингах и реальными возможностями моделей. Для преодоления этого растущего разрыва мы представляем Video-MME-v2 — всеобъемлющий бенчмарк, предназначенный для строгой оценки устойчивости и достоверности понимания видео. Для систематической оценки возможностей моделей мы разработали прогрессивную трехуровневую иерархию, которая поэтапно наращивает сложность понимания видео: от агрегации многоточечной визуальной информации к моделированию временной динамики и, наконец, к сложному мультимодальному рассуждению. В отличие от традиционной точности на один вопрос, мы предлагаем групповую нелинейную стратегию оценки, которая обеспечивает как согласованность ответов на связанные запросы, так и последовательность многошаговых рассуждений. Эта стратегия штрафует фрагментарную или основанную на догадках правильность и засчитывает только ответы, подкрепленные обоснованными рассуждениями. Для гарантии качества данных Video-MME-v2 создан с помощью строго контролируемого конвейера человеческой разметки с участием 12 аннотаторов и 50 независимых рецензентов. Подкрепленный 3300 человеко-часами и до 5 раундами контроля качества, Video-MME-v2 призван стать одним из наиболее авторитетных видео-бенчмарков. Масштабные эксперименты выявляют существенный разрыв между текущей лучшей моделью Gemini-3-Pro и экспертами-людьми, а также обнаруживают четкий иерархический барьер: ошибки в агрегации визуальной информации и временном моделировании накапливаются и ограничивают возможности логического вывода высокого уровня. Мы также обнаружили, что рассуждения, основанные на мышлении, сильно зависят от текстовых подсказок, улучшая производительность при наличии субтитров, но иногда ухудшая ее в чисто визуальных условиях. Выявляя эти ограничения, Video-MME-v2 устанавливает новый требовательный полигон для разработки видеомоделей следующего поколения с поддержкой нескольких мод.

English

With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.

Video-MME-v2: На пути к следующему этапу в создании эталонов для всестороннего понимания видео

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Аннотация

Support