ChatPaper.aiChatPaper

Video-MME-v2: Hacia la siguiente etapa en los puntos de referencia para la comprensión integral de vídeo

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

April 6, 2026
Autores: Chaoyou Fu, Haozhi Yuan, Yuhao Dong, Yi-Fan Zhang, Yunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue Yang, Haoyu Cao, Yunsheng Wu, Ziwei Liu, Xing Sun, Caifeng Shan, Ran He
cs.AI

Resumen

Con el rápido avance de la comprensión de vídeo, los puntos de referencia existentes se están saturando progresivamente, exponiendo una discrepancia crítica entre las puntuaciones infladas en los rankings y las capacidades reales de los modelos. Para abordar esta brecha creciente, presentamos Video-MME-v2, un punto de referencia integral diseñado para evaluar rigurosamente la robustez y la fidelidad de la comprensión de vídeo. Para evaluar sistemáticamente las capacidades de los modelos, diseñamos una jerarquía progresiva de tres niveles que incrementa gradualmente la complejidad de la comprensión de vídeo, desde la agregación de información visual multipunto, pasando por el modelado de dinámicas temporales, hasta llegar al razonamiento multimodal complejo. Además, en contraste con la precisión por pregunta convencional, proponemos una estrategia de evaluación no lineal basada en grupos que exige tanto consistencia entre consultas relacionadas como coherencia en el razonamiento de múltiples pasos. Esta estrategia penaliza la corrección fragmentada o basada en conjeturas y otorga crédito únicamente a las respuestas respaldadas por un razonamiento válido. Para garantizar la calidad de los datos, Video-MME-v2 se construye mediante un pipeline de anotación humana rigurosamente controlado, que involucra a 12 anotadores y 50 revisores independientes. Respaldado por 3.300 horas-hombre y hasta 5 rondas de garantía de calidad, Video-MME-v2 aspira a convertirse en uno de los puntos de referencia de vídeo más autorizados. Experimentos exhaustivos revelan una brecha sustancial entre el mejor modelo actual, Gemini-3-Pro, y los expertos humanos, y descubren un claro cuello de botella jerárquico donde los errores en la agregación de información visual y el modelado temporal se propagan limitando el razonamiento de alto nivel. Además, encontramos que el razonamiento basado en el pensamiento depende en gran medida de las pistas textuales, mejorando el rendimiento con subtítulos pero a veces degradándolo en entornos puramente visuales. Al exponer estas limitaciones, Video-MME-v2 establece un nuevo y exigente banco de pruebas para el desarrollo de la próxima generación de MLLMs de vídeo.
English
With the rapid advancement of video understanding, existing benchmarks are becoming increasingly saturated, exposing a critical discrepancy between inflated leaderboard scores and real-world model capabilities. To address this widening gap, we introduce Video-MME-v2, a comprehensive benchmark designed to rigorously evaluate the robustness and faithfulness of video understanding. To systematically evaluate model capabilities, we design a progressive tri-level hierarchy that incrementally increases the complexity of video comprehension, ranging from multi-point visual information aggregation, to temporal dynamics modeling, and ultimately to complex multimodal reasoning. Besides, in contrast to conventional per-question accuracy, we propose a group-based non-linear evaluation strategy that enforces both consistency across related queries and coherence in multi-step reasoning. It penalizes fragmented or guess-based correctness and assigns credit only to answers supported by valid reasoning. To guarantee data quality, Video-MME-v2 is constructed through a rigorously controlled human annotation pipeline, involving 12 annotators and 50 independent reviewers. Backed by 3,300 human-hours and up to 5 rounds of quality assurance, Video-MME-v2 aims to serve as one of the most authoritative video benchmarks. Extensive experiments reveal a substantial gap between current best model Gemini-3-Pro and human experts, and uncover a clear hierarchical bottleneck where errors in visual information aggregation and temporal modeling propagate to limit high-level reasoning. We further find that thinking-based reasoning is highly dependent on textual cues, improving performance with subtitles but sometimes degrading it in purely visual settings. By exposing these limitations, Video-MME-v2 establishes a demanding new testbed for the development of next-generation video MLLMs.
PDF1976April 9, 2026