Streaming-Autoregressive Videogenerierung durch diagonale Destillation
Streaming Autoregressive Video Generation via Diagonal Distillation
March 10, 2026
Autoren: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
cs.AI
Zusammenfassung
Große vortrainierte Diffusionsmodelle haben die Qualität generierter Videos erheblich verbessert, doch ihr Einsatz im Echtzeit-Streaming bleibt begrenzt. Autoregressive Modelle bieten einen natürlichen Rahmen für die sequentielle Rahmensynthese, erfordern jedoch hohe Rechenleistung, um hohe Detailtreue zu erreichen. Diffusionsdistillation kann diese Modelle in effiziente Varianten mit wenigen Schritten komprimieren, doch bestehende Video-Distillationsansätze adaptieren weitgehend bildspezifische Methoden, die zeitliche Abhängigkeiten vernachlässigen. Diese Techniken zeichnen sich häufig in der Bildgenerierung aus, schneiden aber bei der Videosynthese schlechter ab, was sich in reduzierter Bewegungskohärenz, Fehlerakkumulation über lange Sequenzen und einem Latenz-Qualitäts-Kompromiss äußert. Wir identifizieren zwei Faktoren, die zu diesen Einschränkungen führen: unzureichende Nutzung des zeitlichen Kontexts während der Schrittreduzierung und implizite Vorhersage nachfolgender Rauschpegel bei der Next-Chunk-Vorhersage (d.h. Exposure Bias). Um diese Probleme zu adressieren, schlagen wir Diagonal Distillation vor, das orthogonal zu bestehenden Ansätzen operiert und zeitliche Informationen sowohl über Videosegmente als auch über Entrauschungsschritte hinweg besser nutzt. Kern unseres Ansatzes ist eine asymmetrische Generierungsstrategie: mehr Schritte früh, weniger Schritte später. Dieses Design ermöglicht es späteren Segmenten, reichhaltige Erscheinungsinformationen von gründlich verarbeiteten frühen Segmenten zu erben, während teilweise entrauschte Segmente als konditionale Eingaben für die nachfolgende Synthese verwendet werden. Indem wir die implizite Vorhersage nachfolgender Rauschpegel während der Segmentgenerierung mit den tatsächlichen Inferenzbedingungen in Einklang bringen, mildert unser Ansatz die Fehlerfortpflanzung und reduziert Übersättigung in langen Sequenzen. Wir integrieren weiterhin implizite optische Flussmodellierung, um die Bewegungsqualität unter strengen Schrittbeschränkungen zu erhalten. Unsere Methode generiert ein 5-Sekunden-Video in 2,61 Sekunden (bis zu 31 FPS) und erreicht damit eine 277,3-fache Beschleunigung gegenüber dem undistillierten Modell.
English
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.