Raisonnement par la vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
November 19, 2025
papers.authors: Cheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu
cs.AI
papers.abstract
Les modèles vidéo ont obtenu un succès remarquable dans la génération de vidéos haute fidélité avec une cohérence dynamique du mouvement. Par analogie avec l'évolution de la génération de texte vers le raisonnement basé sur le texte en modélisation linguistique, le développement des modèles vidéo nous amène à nous demander : Les modèles vidéo peuvent-ils raisonner via la génération vidéo ? Comparé au corpus textuel discret, la vidéo ancre le raisonnement dans des dispositions spatiales explicites et une continuité temporelle, ce qui en fait un substrat idéal pour le raisonnement spatial. Dans ce travail, nous explorons le paradigme du raisonnement par vidéo et présentons VR-Bench - un benchmark complet conçu pour évaluer systématiquement les capacités de raisonnement des modèles vidéo. Fondé sur des tâches de résolution de labyrinthes qui exigent intrinsèquement une planification spatiale et un raisonnement multi-étapes, VR-Bench contient 7 920 vidéos générées de manière procédurale couvrant cinq types de labyrinthes et divers styles visuels. Notre analyse empirique démontre que le Fine-Tuning Supervisé (SFT) peut efficacement susciter la capacité de raisonnement des modèles vidéo. Les modèles vidéo présentent une perception spatiale plus forte pendant le raisonnement, surpassant les modèles vision-langue leaders et généralisant bien à travers divers scénarios, tâches et niveaux de complexité. Nous découvrons en outre un effet d'échelle au moment du test, où un échantillonnage diversifié pendant l'inférence améliore la fiabilité du raisonnement de 10 à 20 %. Ces résultats soulignent le potentiel unique et l'évolutivité du raisonnement par vidéo pour les tâches de raisonnement spatial.
English
Video Models have achieved remarkable success in high-fidelity video generation with coherent motion dynamics. Analogous to the development from text generation to text-based reasoning in language modeling, the development of video models motivates us to ask: Can video models reason via video generation? Compared with the discrete text corpus, video grounds reasoning in explicit spatial layouts and temporal continuity, which serves as an ideal substrate for spatial reasoning. In this work, we explore the reasoning via video paradigm and introduce VR-Bench -- a comprehensive benchmark designed to systematically evaluate video models' reasoning capabilities. Grounded in maze-solving tasks that inherently require spatial planning and multi-step reasoning, VR-Bench contains 7,920 procedurally generated videos across five maze types and diverse visual styles. Our empirical analysis demonstrates that SFT can efficiently elicit the reasoning ability of video model. Video models exhibit stronger spatial perception during reasoning, outperforming leading VLMs and generalizing well across diverse scenarios, tasks, and levels of complexity. We further discover a test-time scaling effect, where diverse sampling during inference improves reasoning reliability by 10--20%. These findings highlight the unique potential and scalability of reasoning via video for spatial reasoning tasks.