ChatPaper.aiChatPaper

VideoReasonBench : Les MLLM peuvent-elles effectuer un raisonnement complexe centré sur la vision dans les vidéos ?

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

May 29, 2025
Auteurs: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI

Résumé

Des études récentes ont montré que le raisonnement en chaîne de pensée (CoT) longue peut considérablement améliorer les performances des grands modèles de langage (LLMs) sur des tâches complexes. Cependant, cet avantage reste à démontrer dans le domaine de la compréhension vidéo, car la plupart des benchmarks existants manquent de la profondeur de raisonnement nécessaire pour mettre en évidence les bénéfices des chaînes CoT étendues. Bien que des efforts récents aient proposé des benchmarks visant le raisonnement vidéo, les tâches sont souvent basées sur des connaissances et ne reposent pas fortement sur le contenu visuel. Pour combler cette lacune, nous introduisons VideoReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo complexe et centré sur la vision. Pour garantir une richesse visuelle et une complexité de raisonnement élevée, chaque vidéo de VideoReasonBench représente une séquence d'opérations fines sur un état latent qui n'est visible que dans une partie de la vidéo. Les questions évaluent trois niveaux croissants de compétences en raisonnement vidéo : rappeler les informations visuelles observées, inférer le contenu des états latents, et prédire des informations au-delà de la vidéo. Dans ce cadre, les modèles doivent rappeler avec précision plusieurs opérations dans la vidéo et effectuer un raisonnement étape par étape pour obtenir les bonnes réponses finales à ces questions. En utilisant VideoReasonBench, nous évaluons de manière exhaustive 18 modèles multimodaux de pointe (MLLMs), constatant que la plupart obtiennent de faibles performances sur le raisonnement vidéo complexe, par exemple, GPT-4o n'atteint que 6,9 % de précision, tandis que Gemini-2.5-Pro, amélioré par la pensée, surpasse significativement les autres avec 56,0 % de précision. Nos investigations sur le "scaling au moment du test" révèlent en outre qu'un budget de pensée étendu, bien qu'il n'offre aucun ou peu de bénéfices sur les benchmarks vidéo existants, est essentiel pour améliorer les performances sur VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can significantly enhance the performance of large language models (LLMs) on complex tasks. However, this benefit is yet to be demonstrated in the domain of video understanding, since most existing benchmarks lack the reasoning depth required to demonstrate the advantages of extended CoT chains. While recent efforts have proposed benchmarks aimed at video reasoning, the tasks are often knowledge-driven and do not rely heavily on visual content. To bridge this gap, we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric, complex video reasoning. To ensure visual richness and high reasoning complexity, each video in VideoReasonBench depicts a sequence of fine-grained operations on a latent state that is only visible in part of the video. The questions evaluate three escalating levels of video reasoning skills: recalling observed visual information, inferring the content of latent states, and predicting information beyond the video. Under such task setting, models have to precisely recall multiple operations in the video, and perform step-by-step reasoning to get correct final answers for these questions. Using VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal LLMs (MLLMs), finding that most perform poorly on complex video reasoning, e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our investigations on "test-time scaling" further reveal that extended thinking budget, while offering none or minimal benefits on existing video benchmarks, is essential for improving the performance on VideoReasonBench.

Summary

AI-Generated Summary

PDF396May 30, 2025