Video-MME-v2: Rumo à Próxima Etapa em Benchmarks para Compreensão Abrangente de Vídeos
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
April 6, 2026
Autores: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI
Resumo
Com o rápido avanço da compreensão de vídeo, os benchmarks existentes estão a tornar-se cada vez mais saturados, expondo uma discrepância crítica entre as pontuações inflacionadas nos rankings e as capacidades reais dos modelos no mundo real. Para enfrentar este fosso crescente, apresentamos o Video-MME-v2, um benchmark abrangente concebido para avaliar rigorosamente a robustez e a fidelidade da compreensão de vídeo. Para avaliar sistematicamente as capacidades dos modelos, concebemos uma hierarquia progressiva de três níveis que aumenta incrementalmente a complexidade da compreensão de vídeo, indo desde a agregação de informação visual multi-ponto, passando pela modelação da dinâmica temporal, e culminando no raciocínio multimodal complexo. Além disso, em contraste com a precisão por questão convencional, propomos uma estratégia de avaliação não linear baseada em grupos que exige tanto a consistência entre consultas relacionadas como a coerência no raciocínio multi-etapas. Esta estratégia penaliza a correção fragmentada ou baseada em palpites e atribui crédito apenas a respostas suportadas por um raciocínio válido. Para garantir a qualidade dos dados, o Video-MME-v2 é construído através de um pipeline de anotação humana rigorosamente controlado, envolvendo 12 anotadores e 50 revisores independentes. Suportado por 3.300 horas-humana e até 5 rondas de garantia de qualidade, o Video-MME-v2 visa servir como um dos benchmarks de vídeo mais autoritativos. Experiências extensivas revelam um fosso substancial entre o atual melhor modelo, o Gemini-3-Pro, e os especialistas humanos, e descobrem um claro estrangulamento hierárquico onde os erros na agregação de informação visual e na modelação temporal se propagam, limitando o raciocínio de alto nível. Verificamos ainda que o raciocínio baseado no pensamento é altamente dependente de pistas textuais, melhorando o desempenho com legendas, mas por vezes degradando-o em contextos puramente visuais. Ao expor estas limitações, o Video-MME-v2 estabelece um novo e exigente campo de testes para o desenvolvimento da próxima geração de MLLMs de vídeo.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.