VideoReasonBench: ¿Pueden los MLLMs realizar razonamiento complejo centrado en visión en videos?

Resumen

Estudios recientes han demostrado que el razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) extenso puede mejorar significativamente el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en tareas complejas. Sin embargo, este beneficio aún no se ha demostrado en el ámbito de la comprensión de videos, ya que la mayoría de los benchmarks existentes carecen de la profundidad de razonamiento necesaria para evidenciar las ventajas de las cadenas de CoT extendidas. Aunque esfuerzos recientes han propuesto benchmarks orientados al razonamiento en videos, las tareas suelen estar impulsadas por conocimiento y no dependen en gran medida del contenido visual. Para cerrar esta brecha, presentamos VideoReasonBench, un benchmark diseñado para evaluar el razonamiento complejo y centrado en la visión en videos. Para garantizar riqueza visual y alta complejidad de razonamiento, cada video en VideoReasonBench muestra una secuencia de operaciones detalladas sobre un estado latente que solo es visible en parte del video. Las preguntas evalúan tres niveles crecientes de habilidades de razonamiento en videos: recordar información visual observada, inferir el contenido de estados latentes y predecir información más allá del video. En este contexto, los modelos deben recordar con precisión múltiples operaciones en el video y realizar un razonamiento paso a paso para obtener respuestas finales correctas. Utilizando VideoReasonBench, evaluamos exhaustivamente 18 modelos de lenguaje multimodal (MLLMs) de vanguardia, encontrando que la mayoría tiene un rendimiento deficiente en el razonamiento complejo en videos; por ejemplo, GPT-4o alcanza solo un 6.9% de precisión, mientras que Gemini-2.5-Pro, mejorado con pensamiento, supera significativamente a otros con un 56.0% de precisión. Nuestras investigaciones sobre el "escalado en tiempo de prueba" revelan además que un presupuesto de pensamiento extendido, aunque ofrece beneficios nulos o mínimos en los benchmarks de video existentes, es esencial para mejorar el rendimiento en VideoReasonBench.

English

Recent studies have shown that long chain-of-thought (CoT) reasoning can significantly enhance the performance of large language models (LLMs) on complex tasks. However, this benefit is yet to be demonstrated in the domain of video understanding, since most existing benchmarks lack the reasoning depth required to demonstrate the advantages of extended CoT chains. While recent efforts have proposed benchmarks aimed at video reasoning, the tasks are often knowledge-driven and do not rely heavily on visual content. To bridge this gap, we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric, complex video reasoning. To ensure visual richness and high reasoning complexity, each video in VideoReasonBench depicts a sequence of fine-grained operations on a latent state that is only visible in part of the video. The questions evaluate three escalating levels of video reasoning skills: recalling observed visual information, inferring the content of latent states, and predicting information beyond the video. Under such task setting, models have to precisely recall multiple operations in the video, and perform step-by-step reasoning to get correct final answers for these questions. Using VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal LLMs (MLLMs), finding that most perform poorly on complex video reasoning, e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our investigations on "test-time scaling" further reveal that extended thinking budget, while offering none or minimal benefits on existing video benchmarks, is essential for improving the performance on VideoReasonBench.

VideoReasonBench: ¿Pueden los MLLMs realizar razonamiento complejo centrado en visión en videos?

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Resumen

Support