Videomodelle argumentieren früh: Ausnutzung von Planbindung zur Lösung von Labyrinthen

Zusammenfassung

Videodiffusionsmodelle zeigen emergente Fähigkeiten zur logischen Schlussfolgerung, wie das Lösen von Labyrinthen und Rätseln, doch es ist wenig darüber bekannt, wie sie während der Generierung schlussfolgern. Wir unternehmen einen ersten Schritt zum Verständnis dieses Prozesses und untersuchen die interne Planungsdynamik von Videomodellen unter Verwendung von 2D-Labyrinth-Lösungen als kontrollierte Testumgebung. Unsere Untersuchungen ergeben zwei Haupterkenntnisse. Unsere erste Erkenntnis ist die frühe Planfestlegung: Videodiffusionsmodelle legen sich innerhalb der ersten wenigen Denoising-Schritte auf einen übergeordneten Bewegungsplan fest, wonach weiteres Denoising visuelle Details verändert, aber nicht die zugrundeliegende Trajektorie. Unsere zweite Erkenntnis ist, dass die Pfadlänge, nicht die Hindernisdichte, der dominante Prädiktor für die Schwierigkeit eines Labyrinths ist, mit einer scharfen Fehlerschwelle bei 12 Schritten. Dies bedeutet, dass Videomodelle nur über lange Labyrinthe schlussfolgern können, indem sie mehrere sequentielle Generationen miteinander verketten. Um den praktischen Nutzen unserer Erkenntnisse zu demonstrieren, führen wir "Chaining with Early Planning" (ChEaP) ein, das Rechenaufwand nur für vielversprechende frühe Plane verwendet und diese zur Bewältigung komplexer Labyrinthe miteinander verkettet. Dies verbessert die Genauigkeit von 7 % auf 67 % bei langen Labyrinthen und um das 2,5-fache insgesamt bei schwierigen Aufgaben in Frozen Lake und VR-Bench für Wan2.2-14B und HunyuanVideo-1.5. Unsere Analyse zeigt, dass aktuelle Videomodelle über tiefergehende logische Fähigkeiten verfügen als bisher angenommen, die durch besseres Skalieren zur Inferenzzeit zuverlässiger abgerufen werden können.

English

Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.

Videomodelle argumentieren früh: Ausnutzung von Planbindung zur Lösung von Labyrinthen

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Zusammenfassung

Support