Démystification du raisonnement vidéo

Résumé

Les progrès récents en génération vidéo ont mis en lumière un phénomène inattendu : les modèles vidéo basés sur la diffusion présentent des capacités de raisonnement non triviales. Les travaux antérieurs attribuent cela à un mécanisme de Chaîne d'Images (Chain-of-Frames, CoF), où le raisonnement est supposé se dérouler séquentiellement à travers les images vidéo. Dans ce travail, nous remettons en cause cette hypothèse et découvrons un mécanisme fondamentalement différent. Nous montrons que le raisonnement dans les modèles vidéo émerge principalement le long des étapes de dé-bruitage de la diffusion. Par une analyse qualitative et des expériences de sondage ciblées, nous constatons que les modèles explorent plusieurs solutions candidates dans les premières étapes de dé-bruitage et convergent progressivement vers une réponse finale, un processus que nous nommons Chaîne d'Étapes (Chain-of-Steps, CoS). Au-delà de ce mécanisme central, nous identifions plusieurs comportements de raisonnement émergents essentiels aux performances du modèle : (1) la mémoire de travail, permettant une référence persistante ; (2) l'auto-correction et l'amélioration, permettant de revenir de solutions intermédiaires incorrectes ; et (3) la perception avant l'action, où les premières étapes établissent un ancrage sémantique et les étapes ultérieures effectuent une manipulation structurée. Au cours d'une étape de diffusion, nous découvrons en outre une spécialisation fonctionnelle auto-évoluée au sein des Transformers de Diffusion, où les premières couches encodent une structure perceptuelle dense, les couches intermédiaires exécutent le raisonnement et les couches ultérieures consolident les représentations latentes. Motivés par ces observations, nous présentons une stratégie simple sans apprentissage comme preuve de concept, démontrant comment le raisonnement peut être amélioré en agrégeant les trajectoires latentes de modèles identiques avec différentes graines aléatoires. Globalement, notre travail fournit une compréhension systématique de la manière dont le raisonnement émerge dans les modèles de génération vidéo, offrant une base pour guider les recherches futures afin de mieux exploiter la dynamique de raisonnement inhérente des modèles vidéo en tant que nouveau substrat pour l'intelligence.

English

Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.

Démystification du raisonnement vidéo

Demystifing Video Reasoning

Résumé

Support