ChatPaper.aiChatPaper

ビデオモデルは早期に推論する:迷路解決における計画コミットメントの活用

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

March 31, 2026
著者: Kaleb Newman, Tyler Zhu, Olga Russakovsky
cs.AI

要旨

ビデオ拡散モデルは、迷路やパズルを解くような創発的な推論能力を示すが、生成中の推論プロセスについてはほとんど理解されていない。本研究はこの理解に向けた第一歩として、2D迷路解決を制御されたテストベッドとして用い、ビデオモデルの内部計画ダイナミクスを調査する。我々の調査から2つの発見があった。第一の発見は**早期計画確定**である。ビデオ拡散モデルは、最初の数回のノイズ除去ステップ内で高レベルの動作計画を確定させ、その後のノイズ除去は視覚的詳細を変更するが、根本的な軌道は変更しない。第二の発見は、迷路の難易度の主要な予測因子が**障害物密度ではなく経路長**であり、12ステップで失敗率が急激に上昇する閾値が存在することである。これは、ビデオモデルが長い迷路を推論するには、複数の連続した生成を連鎖させる必要があることを意味する。我々の発見の実用的な利点を実証するため、**Chaining with Early Planning (ChEaP)** を提案する。これは、有望な早期計画を持つシードにのみ計算リソースを投入し、それらを連鎖させて複雑な迷路に取り組む手法である。これにより、長期的な迷路における精度が7%から67%に向上し、Frozen LakeおよびVR-Benchにおける困難なタスク全体では、Wan2.2-14BとHunyuanVideo-1.5にわたって2.5倍の精度向上を達成した。我々の分析は、現在のビデオモデルが従来認識されていた以上に深い推論能力を有しており、より優れた推論時スケーリングによりその能力を確実に引き出せることを明らかにする。
English
Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.
PDF61April 4, 2026