Desmistificando o Raciocínio em Vídeo
Demystifing Video Reasoning
March 17, 2026
Autores: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang
cs.AI
Resumo
Avanços recentes na geração de vídeo revelaram um fenômeno inesperado: modelos de vídeo baseados em difusão exibem capacidades de raciocínio não triviais. Trabalhos anteriores atribuem isso a um mecanismo de Cadeia de Frames (CoF), onde assume-se que o raciocínio se desenrola sequencialmente através dos frames do vídeo. Neste trabalho, desafiamos essa suposição e descobrimos um mecanismo fundamentalmente diferente. Mostramos que o raciocínio em modelos de vídeo emerge principalmente ao longo das etapas de desruído da difusão. Através de análise qualitativa e experimentos de sondagem direcionados, descobrimos que os modelos exploram múltiplas soluções candidatas nas primeiras etapas de desruído e convergem progressivamente para uma resposta final, um processo que denominamos Cadeia de Etapas (CoS). Além deste mecanismo central, identificamos vários comportamentos de raciocínio emergentes críticos para o desempenho do modelo: (1) memória de trabalho, permitindo referência persistente; (2) autocorreção e aprimoramento, permitindo a recuperação de soluções intermediárias incorretas; e (3) percepção antes da ação, onde as etapas iniciais estabelecem uma base semântica e as etapas posteriores realizam manipulação estruturada. Durante uma etapa de difusão, descobrimos ainda uma especialização funcional auto-evoluída dentro dos Transformadores de Difusão, onde as camadas iniciais codificam estrutura perceptual densa, as camadas intermediárias executam o raciocínio e as camadas posteriores consolidam as representações latentes. Motivados por essas percepções, apresentamos uma estratégia simples sem necessidade de treinamento como prova de conceito, demonstrando como o raciocínio pode ser melhorado através do *ensembling* de trajetórias latentes de modelos idênticos com diferentes sementes aleatórias. No geral, nosso trabalho fornece uma compreensão sistemática de como o raciocínio emerge em modelos de geração de vídeo, oferecendo uma base para orientar pesquisas futuras na melhor exploração da dinâmica de raciocínio inerente dos modelos de vídeo como um novo substrato para a inteligência.
English
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.