Video-MME-v2: Rumo à Próxima Etapa em Benchmarks para Compreensão Abrangente de Vídeos

Resumo

Com o rápido avanço da compreensão de vídeo, os benchmarks existentes estão a tornar-se cada vez mais saturados, expondo uma discrepância crítica entre as pontuações inflacionadas nos rankings e as capacidades reais dos modelos no mundo real. Para enfrentar este fosso crescente, apresentamos o Video-MME-v2, um benchmark abrangente concebido para avaliar rigorosamente a robustez e a fidelidade da compreensão de vídeo. Para avaliar sistematicamente as capacidades dos modelos, concebemos uma hierarquia progressiva de três níveis que aumenta incrementalmente a complexidade da compreensão de vídeo, indo desde a agregação de informação visual multi-ponto, passando pela modelação da dinâmica temporal, e culminando no raciocínio multimodal complexo. Além disso, em contraste com a precisão por questão convencional, propomos uma estratégia de avaliação não linear baseada em grupos que exige tanto a consistência entre consultas relacionadas como a coerência no raciocínio multi-etapas. Esta estratégia penaliza a correção fragmentada ou baseada em palpites e atribui crédito apenas a respostas suportadas por um raciocínio válido. Para garantir a qualidade dos dados, o Video-MME-v2 é construído através de um pipeline de anotação humana rigorosamente controlado, envolvendo 12 anotadores e 50 revisores independentes. Suportado por 3.300 horas-humana e até 5 rondas de garantia de qualidade, o Video-MME-v2 visa servir como um dos benchmarks de vídeo mais autoritativos. Experiências extensivas revelam um fosso substancial entre o atual melhor modelo, o Gemini-3-Pro, e os especialistas humanos, e descobrem um claro estrangulamento hierárquico onde os erros na agregação de informação visual e na modelação temporal se propagam, limitando o raciocínio de alto nível. Verificamos ainda que o raciocínio baseado no pensamento é altamente dependente de pistas textuais, melhorando o desempenho com legendas, mas por vezes degradando-o em contextos puramente visuais. Ao expor estas limitações, o Video-MME-v2 estabelece um novo e exigente campo de testes para o desenvolvimento da próxima geração de MLLMs de vídeo.

English

With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.

Video-MME-v2: Rumo à Próxima Etapa em Benchmarks para Compreensão Abrangente de Vídeos

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Resumo

Support