Los Modelos de Video Razonan Temprano: Aprovechando el Compromiso del Plan para Resolver Laberintos

Resumen

Los modelos de difusión de video exhiben capacidades de razonamiento emergentes, como resolver laberintos y rompecabezas, sin embargo, se comprende poco sobre cómo razonan durante la generación. Damos un primer paso para entender esto y estudiamos la dinámica de planificación interna de los modelos de video utilizando la resolución de laberintos 2D como banco de pruebas controlado. Nuestras investigaciones revelan dos hallazgos. Nuestro primer hallazgo es el compromiso temprano del plan: los modelos de difusión de video se comprometen con un plan de movimiento de alto nivel dentro de los primeros pasos de eliminación de ruido, después de los cuales la eliminación de ruido adicional altera los detalles visuales pero no la trayectoria subyacente. Nuestro segundo hallazgo es que la longitud de la ruta, no la densidad de obstáculos, es el predictor dominante de la dificultad del laberinto, con un umbral de fallo abrupto en 12 pasos. Esto significa que los modelos de video solo pueden razonar sobre laberintos largos encadenando múltiples generaciones secuenciales. Para demostrar los beneficios prácticos de nuestros hallazgos, presentamos "Encadenamiento con Planificación Temprana" (ChEaP), que solo gasta recursos computacionales en semillas con planes iniciales prometedores y los encadena para abordar laberintos complejos. Esto mejora la precisión del 7% al 67% en laberintos de largo horizonte y en 2.5x en general en tareas difíciles en Frozen Lake y VR-Bench en Wan2.2-14B y HunyuanVideo-1.5. Nuestro análisis revela que los modelos de video actuales poseen capacidades de razonamiento más profundas de lo que se reconocía previamente, las cuales pueden elicitarse de manera más confiable con una mejor escalabilidad en tiempo de inferencia.

English

Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.

Los Modelos de Video Razonan Temprano: Aprovechando el Compromiso del Plan para Resolver Laberintos

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Resumen

Support