Entmystifizierung der Videoverarbeitung
Demystifing Video Reasoning
March 17, 2026
Autoren: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Videogenerierung haben ein unerwartetes Phänomen offenbart: diffusionsbasierte Videomodelle zeigen beachtliche Fähigkeiten zum logischen Schlussfolgern (Reasoning). Bisherige Arbeiten führen dies auf einen "Chain-of-Frames" (CoF)-Mechanismus zurück, bei dem angenommen wird, dass sich das Reasoning sequenziell über die Videobilder hinweg entfaltet. In dieser Arbeit stellen wir diese Annahme in Frage und decken einen grundlegend anderen Mechanismus auf. Wir zeigen, dass das Reasoning in Videomodellen stattdessen primär entlang der Diffusions-Entrauschungsschritte entsteht. Durch qualitative Analysen und gezielte Abfragetests stellen wir fest, dass Modelle in frühen Entrauschungsschritten mehrere mögliche Lösungen explorieren und schrittweise zu einer endgültigen Antwort konvergieren – einen Prozess, den wir als "Chain-of-Steps" (CoS) bezeichnen. Über diesen Kernmechanismus hinaus identifizieren wir mehrere emergente Reasoning-Verhaltensweisen, die für die Modellleistung entscheidend sind: (1) Arbeitsgedächtnis, das persistente Referenzierung ermöglicht; (2) Selbstkorrektur und -verbesserung, die eine Erholung von falschen Zwischenlösungen erlauben; und (3) "Wahrnehmung vor Aktion", bei der frühe Schritte eine semantische Grundlage schaffen und spätere Schritte strukturierte Manipulationen durchführen. Während eines Diffusionsschritts entdecken wir weiterhin eine selbstentwickelte funktionale Spezialisierung innerhalb von Diffusion Transformers: Frühe Schichten kodieren dichte perzeptive Strukturen, mittlere Schichten führen das Reasoning aus und spätere Schichten konsolidieren latente Repräsentationen. Motiviert durch diese Erkenntnisse präsentieren wir eine einfache, trainingsfreie Strategie als Machbarkeitsnachweis, die demonstriert, wie das Reasoning durch das Ensemble latenter Trajektorien aus identischen Modellen mit unterschiedlichen Zufallsseed verbessert werden kann. Insgesamt bietet unsere Arbeit ein systematisches Verständnis dafür, wie Reasoning in Videogenerierungsmodellen entsteht, und legt eine Grundlage, um zukünftige Forschung dabei zu leiten, die inherente Reasoning-Dynamik von Videomodellen besser als neue Grundlage für Intelligenz zu nutzen.
English
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.