推論によるナビゲーション:迷路解決タスクを通じた映像モデルの推論能力の初評価
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
November 19, 2025
著者: Cheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu
cs.AI
要旨
ビデオモデルは、コヒーレントなモーション動態を伴う高精細な映像生成において顕著な成功を収めている。言語モデリングにおけるテキスト生成からテキストベース推論への発展と同様に、ビデオモデルの発展は我々に問いかける:ビデオモデルは映像生成を通じて推論できるのか?離散的なテキストコーパスと比較して、ビデオは推論を明示的な空間配置と時間的連続性に根ざすため、空間推論の理想的な基盤となる。本研究では「映像による推論」パラダイムを探求し、ビデオモデルの推論能力を体系的に評価する包括的ベンチマーク「VR-Bench」を導入する。空間計画と多段階推論を本質的に要する迷路解決タスクに基づき、VR-Benchは5種類の迷路タイプと多様な視覚スタイルにわたって7,920本の手続き的に生成された映像を包含する。実証分析により、SFT(Supervised Fine-Tuning)がビデオモデルの推論能力を効率的に引き出せることを示す。ビデオモデルは推論時に強力な空間知覚を発揮し、主要な視覚言語モデル(VLM)を上回り、多様なシナリオ・タスク・複雑度に対して良好な汎化性能を示した。さらに、推論時の多様なサンプリングが推論信頼性を10~20%向上させる「テスト時スケーリング効果」を発見した。これらの知見は、空間推論タスクにおける「映像による推論」の独自の可能性と拡張性を浮き彫りにする。
English
Video Models have achieved remarkable success in high-fidelity video generation with coherent motion dynamics. Analogous to the development from text generation to text-based reasoning in language modeling, the development of video models motivates us to ask: Can video models reason via video generation? Compared with the discrete text corpus, video grounds reasoning in explicit spatial layouts and temporal continuity, which serves as an ideal substrate for spatial reasoning. In this work, we explore the reasoning via video paradigm and introduce VR-Bench -- a comprehensive benchmark designed to systematically evaluate video models' reasoning capabilities. Grounded in maze-solving tasks that inherently require spatial planning and multi-step reasoning, VR-Bench contains 7,920 procedurally generated videos across five maze types and diverse visual styles. Our empirical analysis demonstrates that SFT can efficiently elicit the reasoning ability of video model. Video models exhibit stronger spatial perception during reasoning, outperforming leading VLMs and generalizing well across diverse scenarios, tasks, and levels of complexity. We further discover a test-time scaling effect, where diverse sampling during inference improves reasoning reliability by 10--20%. These findings highlight the unique potential and scalability of reasoning via video for spatial reasoning tasks.