Demistificare il ragionamento video
Demystifing Video Reasoning
March 17, 2026
Autori: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang
cs.AI
Abstract
I recenti progressi nella generazione video hanno rivelato un fenomeno inaspettato: i modelli video basati sulla diffusione mostrano capacità di ragionamento non banali. I lavori precedenti attribuiscono questo fenomeno a un meccanismo a Catena di Fotogrammi (Chain-of-Frames, CoF), in cui si presume che il ragionamento si svolga sequenzialmente attraverso i fotogrammi video. In questo lavoro, contestiamo questa ipotesi e scopriamo un meccanismo fondamentalmente diverso. Dimostriamo che il ragionamento nei modelli video emerge invece principalmente lungo i passi di denoising della diffusione. Attraverso analisi qualitative ed esperimenti di probing mirati, scopriamo che i modelli esplorano multiple soluzioni candidate nei primi passi di denoising e convergono progressivamente verso una risposta finale, un processo che definiamo Catena di Passi (Chain-of-Steps, CoS). Oltre a questo meccanismo centrale, identifiamo diversi comportamenti di ragionamento emergenti critici per le prestazioni del modello: (1) memoria di lavoro, che consente un riferimento persistente; (2) autocorrezione e miglioramento, che permettono di recuperare da soluzioni intermedie errate; e (3) percezione prima dell'azione, dove i primi passi stabiliscono una base semantica e i passi successivi eseguono manipolazioni strutturate. Durante un passo di diffusione, scopriamo inoltre una specializzazione funzionale auto-evolutasi all'interno dei Diffusion Transformer, dove gli strati iniziali codificano la struttura percettiva densa, gli strati intermedi eseguono il ragionamento e gli strati finali consolidano le rappresentazioni latenti. Sulla base di queste intuizioni, presentiamo una semplice strategia senza necessità di addestramento come prova di concetto, dimostrando come il ragionamento possa essere migliorato ensembleando le traiettorie latenti di modelli identici con diversi semi casuali. Nel complesso, il nostro lavoro fornisce una comprensione sistematica di come emerge il ragionamento nei modelli di generazione video, offrendo una base per guidare la ricerca futura verso un migliore sfruttamento delle dinamiche di ragionamento intrinseche dei modelli video come nuovo substrato per l'intelligenza.
English
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.