Video-modellen redeneren vroeg: gebruikmaken van plancommitment voor doolhofoplossing

Samenvatting

Videodiffusiemodellen vertonen opkomende redeneervaardigheden, zoals het oplossen van doolhoven en puzzels, maar er is weinig bekend over hoe ze redeneren tijdens de generatie. Wij zetten een eerste stap om dit te begrijpen en bestuderen de interne planningsdynamiek van videomodellen met behulp van 2D-doolhofoplossing als gecontroleerde testomgeving. Ons onderzoek levert twee bevindingen op. Onze eerste bevinding is *vroege planningsvastlegging*: videodiffusiemodellen leggen een hoogwaardig bewegingsplan vast binnen de eerste paar denoiseringsstappen, waarna verdere denoisering visuele details wijzigt maar niet de onderliggende trajectorie. Onze tweede bevinding is dat *padlengte*, niet obstakeldichtheid, de dominante voorspeller is van doolhofmoeilijkheid, met een scherpe faaldrempel bij 12 stappen. Dit betekent dat videomodellen alleen over lange doolhoven kunnen redeneren door meerdere opeenvolgende generaties aan elkaar te ketenen. Om de praktische voordelen van onze bevindingen aan te tonen, introduceren wij *Chaining with Early Planning*, ofwel ChEaP, dat alleen rekentijd besteedt aan startsituaties met veelbelovende vroege plannen en deze aaneenketent om complexe doolhoven aan te pakken. Dit verbetert de nauwkeurigheid van 7% naar 67% voor doolhoven met een lange horizon en met 2,5x algemeen voor moeilijke taken in Frozen Lake en VR-Bench bij Wan2.2-14B en HunyuanVideo-1.5. Onze analyse laat zien dat huidige videomodellen diepere redeneervaardigheden bezitten dan voorheen erkend, welke betrouwbaarder naar voren kunnen worden gebracht met betere schaalvergroting tijdens inferentie.

English

Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.

Video-modellen redeneren vroeg: gebruikmaken van plancommitment voor doolhofoplossing

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Samenvatting

Support