VideoReasonBench : Les MLLM peuvent-elles effectuer un raisonnement complexe centré sur la vision dans les vidéos ?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
May 29, 2025
Auteurs: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI
Résumé
Des études récentes ont montré que le raisonnement en chaîne de pensée (CoT) longue peut considérablement améliorer les performances des grands modèles de langage (LLMs) sur des tâches complexes. Cependant, cet avantage reste à démontrer dans le domaine de la compréhension vidéo, car la plupart des benchmarks existants manquent de la profondeur de raisonnement nécessaire pour mettre en évidence les bénéfices des chaînes CoT étendues. Bien que des efforts récents aient proposé des benchmarks visant le raisonnement vidéo, les tâches sont souvent basées sur des connaissances et ne reposent pas fortement sur le contenu visuel. Pour combler cette lacune, nous introduisons VideoReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo complexe et centré sur la vision. Pour garantir une richesse visuelle et une complexité de raisonnement élevée, chaque vidéo de VideoReasonBench représente une séquence d'opérations fines sur un état latent qui n'est visible que dans une partie de la vidéo. Les questions évaluent trois niveaux croissants de compétences en raisonnement vidéo : rappeler les informations visuelles observées, inférer le contenu des états latents, et prédire des informations au-delà de la vidéo. Dans ce cadre, les modèles doivent rappeler avec précision plusieurs opérations dans la vidéo et effectuer un raisonnement étape par étape pour obtenir les bonnes réponses finales à ces questions. En utilisant VideoReasonBench, nous évaluons de manière exhaustive 18 modèles multimodaux de pointe (MLLMs), constatant que la plupart obtiennent de faibles performances sur le raisonnement vidéo complexe, par exemple, GPT-4o n'atteint que 6,9 % de précision, tandis que Gemini-2.5-Pro, amélioré par la pensée, surpasse significativement les autres avec 56,0 % de précision. Nos investigations sur le "scaling au moment du test" révèlent en outre qu'un budget de pensée étendu, bien qu'il n'offre aucun ou peu de bénéfices sur les benchmarks vidéo existants, est essentiel pour améliorer les performances sur VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can
significantly enhance the performance of large language models (LLMs) on
complex tasks. However, this benefit is yet to be demonstrated in the domain of
video understanding, since most existing benchmarks lack the reasoning depth
required to demonstrate the advantages of extended CoT chains. While recent
efforts have proposed benchmarks aimed at video reasoning, the tasks are often
knowledge-driven and do not rely heavily on visual content. To bridge this gap,
we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric,
complex video reasoning. To ensure visual richness and high reasoning
complexity, each video in VideoReasonBench depicts a sequence of fine-grained
operations on a latent state that is only visible in part of the video. The
questions evaluate three escalating levels of video reasoning skills: recalling
observed visual information, inferring the content of latent states, and
predicting information beyond the video. Under such task setting, models have
to precisely recall multiple operations in the video, and perform step-by-step
reasoning to get correct final answers for these questions. Using
VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal
LLMs (MLLMs), finding that most perform poorly on complex video reasoning,
e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced
Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our
investigations on "test-time scaling" further reveal that extended thinking
budget, while offering none or minimal benefits on existing video benchmarks,
is essential for improving the performance on VideoReasonBench.Summary
AI-Generated Summary