VideoReasonBench: ¿Pueden los MLLMs realizar razonamiento complejo centrado en visión en videos?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
May 29, 2025
Autores: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI
Resumen
Estudios recientes han demostrado que el razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) extenso puede mejorar significativamente el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en tareas complejas. Sin embargo, este beneficio aún no se ha demostrado en el ámbito de la comprensión de videos, ya que la mayoría de los benchmarks existentes carecen de la profundidad de razonamiento necesaria para evidenciar las ventajas de las cadenas de CoT extendidas. Aunque esfuerzos recientes han propuesto benchmarks orientados al razonamiento en videos, las tareas suelen estar impulsadas por conocimiento y no dependen en gran medida del contenido visual. Para cerrar esta brecha, presentamos VideoReasonBench, un benchmark diseñado para evaluar el razonamiento complejo y centrado en la visión en videos. Para garantizar riqueza visual y alta complejidad de razonamiento, cada video en VideoReasonBench muestra una secuencia de operaciones detalladas sobre un estado latente que solo es visible en parte del video. Las preguntas evalúan tres niveles crecientes de habilidades de razonamiento en videos: recordar información visual observada, inferir el contenido de estados latentes y predecir información más allá del video. En este contexto, los modelos deben recordar con precisión múltiples operaciones en el video y realizar un razonamiento paso a paso para obtener respuestas finales correctas. Utilizando VideoReasonBench, evaluamos exhaustivamente 18 modelos de lenguaje multimodal (MLLMs) de vanguardia, encontrando que la mayoría tiene un rendimiento deficiente en el razonamiento complejo en videos; por ejemplo, GPT-4o alcanza solo un 6.9% de precisión, mientras que Gemini-2.5-Pro, mejorado con pensamiento, supera significativamente a otros con un 56.0% de precisión. Nuestras investigaciones sobre el "escalado en tiempo de prueba" revelan además que un presupuesto de pensamiento extendido, aunque ofrece beneficios nulos o mínimos en los benchmarks de video existentes, es esencial para mejorar el rendimiento en VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can
significantly enhance the performance of large language models (LLMs) on
complex tasks. However, this benefit is yet to be demonstrated in the domain of
video understanding, since most existing benchmarks lack the reasoning depth
required to demonstrate the advantages of extended CoT chains. While recent
efforts have proposed benchmarks aimed at video reasoning, the tasks are often
knowledge-driven and do not rely heavily on visual content. To bridge this gap,
we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric,
complex video reasoning. To ensure visual richness and high reasoning
complexity, each video in VideoReasonBench depicts a sequence of fine-grained
operations on a latent state that is only visible in part of the video. The
questions evaluate three escalating levels of video reasoning skills: recalling
observed visual information, inferring the content of latent states, and
predicting information beyond the video. Under such task setting, models have
to precisely recall multiple operations in the video, and perform step-by-step
reasoning to get correct final answers for these questions. Using
VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal
LLMs (MLLMs), finding that most perform poorly on complex video reasoning,
e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced
Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our
investigations on "test-time scaling" further reveal that extended thinking
budget, while offering none or minimal benefits on existing video benchmarks,
is essential for improving the performance on VideoReasonBench.Summary
AI-Generated Summary