Modelos de Vídeo Raciocinam Precocemente: Explorando o Comprometimento com Planos para Resolução de Labirintos

Resumo

Os modelos de difusão de vídeo exibem capacidades emergentes de raciocínio, como resolver labirintos e quebra-cabeças, mas ainda se compreende pouco sobre como eles raciocinam durante a geração. Damos um primeiro passo para compreender este fenómeno e estudamos a dinâmica interna de planeamento dos modelos de vídeo, utilizando a resolução de labirintos 2D como um banco de testes controlado. As nossas investigações revelam duas descobertas. A nossa primeira descoberta é o **comprometimento precoce do plano**: os modelos de difusão de vídeo comprometem-se com um plano de movimento de alto nível nos primeiros passos de remoção de ruído, após os quais a continuação deste processo altera os detalhes visuais, mas não a trajetória subjacente. A nossa segunda descoberta é que o **comprimento do caminho, e não a densidade de obstáculos, é o principal preditor da dificuldade do labirinto**, com um limiar de falha acentuado em 12 passos. Isto significa que os modelos de vídeo só podem raciocinar sobre labirintos longos encadeando várias gerações sequenciais. Para demonstrar os benefícios práticos das nossas descobertas, introduzimos o **Encadeamento com Planeamento Precoce (ChEaP)**, que gasta recursos computacionais apenas em sementes com planos iniciais promissores e os encadeia para lidar com labirintos complexos. Esta abordagem melhora a precisão de 7% para 67% em labirintos de longo horizonte e em 2,5 vezes no geral em tarefas difíceis no Frozen Lake e no VR-Bench, através dos modelos Wan2.2-14B e HunyuanVideo-1.5. A nossa análise revela que os modelos de vídeo atuais possuem capacidades de raciocínio mais profundas do que as previamente reconhecidas, as quais podem ser eliciadas de forma mais fiável com uma melhor escala no momento da inferência.

English

Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.

Modelos de Vídeo Raciocinam Precocemente: Explorando o Comprometimento com Planos para Resolução de Labirintos

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Resumo

Support