Video Redeneren Ontrafeld
Demystifing Video Reasoning
March 17, 2026
Auteurs: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang
cs.AI
Samenvatting
Recente vooruitgang in videogeneratie heeft een onverwacht fenomeen aan het licht gebracht: op diffusie gebaseerde videomodellen vertonen niet-triviale redeneervermogens. Eerder werk schrijft dit toe aan een Chain-of-Frames (CoF) mechanisme, waarbij wordt aangenomen dat het redeneren sequentieel over de videoframes plaatsvindt. In dit werk dagen we deze aanname uit en ontdekken we een fundamenteel ander mechanisme. Wij tonen aan dat redeneren in videomodellen in plaats daarvan voornamelijk ontstaat langs de denoisestappen van de diffusie. Door kwalitatieve analyse en gerichte probingexperimenten stellen we vast dat modellen in vroege denoisestappen meerdere kandidaat-oplossingen verkennen en geleidelijk convergeren naar een definitief antwoord, een proces dat wij Chain-of-Steps (CoS) noemen. Naast dit kernmechanisme identificeren we verschillende emergente redeneergedragingen die cruciaal zijn voor de modelprestaties: (1) werkgeheugen, dat permanente referentie mogelijk maakt; (2) zelfcorrectie en -verbetering, waardoor herstel van incorrecte tussenoplossingen mogelijk is; en (3) perceptie vóór actie, waarbij vroege stappen semantische grondslag leggen en latere stappen gestructureerde manipulatie uitvoeren. Tijdens een diffusiestap ontdekken we verder een zelf-geëvolueerde functionele specialisatie binnen Diffusion Transformers, waarbij vroege lagen dichte perceptuele structuur coderen, middelste lagen redenering uitvoeren en latere lagen latente representaties consolideren. Gemotiveerd door deze inzichten presenteren we een eenvoudige trainingsvrije strategie als proof-of-concept, die aantoont hoe redenering kan worden verbeterd door latente trajecten te ensembelen van identieke modellen met verschillende willekeurige seeds. Over het geheel genomen biedt ons werk een systematisch begrip van hoe redenering ontstaat in videogeneratiemodellen, en legt het een fundament om toekomstig onderzoek te leiden bij het beter exploiteren van de inherente redeneerdynamica van videomodellen als een nieuw substraat voor intelligentie.
English
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.