Les modèles vidéo raisonnent tôt : Exploiter l'engagement du plan pour résoudre des labyrinthes

Résumé

Les modèles de diffusion vidéo présentent des capacités de raisonnement émergentes telles que la résolution de labyrinthes et de puzzles, mais leur processus de raisonnement pendant la génération reste peu compris. Nous franchissons une première étape pour comprendre ce phénomène en étudiant la dynamique de planification interne des modèles vidéo, en utilisant la résolution de labyrinthes 2D comme banc d'essai contrôlé. Nos investigations révèlent deux résultats principaux. Notre première découverte est l'engagement précoce du plan : les modèles de diffusion vidéo s'engagent dans un plan de mouvement de haut niveau dès les premières étapes de débruitage, après lesquelles les étapes supplémentaires modifient les détails visuels mais pas la trajectoire sous-jacente. Notre seconde découverte est que la longueur du chemin, et non la densité d'obstacles, est le principal facteur prédictif de la difficulté du labyrinthe, avec un seuil de rupture net à 12 étapes. Cela signifie que les modèles vidéo ne peuvent raisonner sur des labyrinthes longs qu'en enchaînant plusieurs générations séquentielles. Pour démontrer l'utilité pratique de nos résultats, nous introduisons l'Enchaînement avec Planification Précoce (ChEaP), qui ne consacre des ressources computationnelles qu'aux germes présentant des plans précoces prometteurs et les enchaîne pour résoudre des labyrinthes complexes. Cette méthode améliore la précision de 7% à 67% sur les labyrinthes à long horizon et d'un facteur 2,5 globalement sur les tâches difficiles de Frozen Lake et VR-Bench avec Wan2.2-14B et HunyuanVideo-1.5. Notre analyse révèle que les modèles vidéo actuels possèdent des capacités de raisonnement plus profondes que précédemment reconnues, qui peuvent être sollicitées plus fiabilité grâce à un meilleur scaling à l'inférence.

English

Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.

Les modèles vidéo raisonnent tôt : Exploiter l'engagement du plan pour résoudre des labyrinthes

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Résumé

Support