Génération Autoregressive de Vidéos en Flux par Distillation Diagonale
Streaming Autoregressive Video Generation via Diagonal Distillation
March 10, 2026
Auteurs: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
cs.AI
Résumé
Les grands modèles de diffusion préentraînés ont considérablement amélioré la qualité des vidéos générées, mais leur utilisation en streaming en temps réel reste limitée. Les modèles autorégressifs offrent un cadre naturel pour la synthèse séquentielle d'images, mais nécessitent des calculs intensifs pour atteindre une haute fidélité. La distillation par diffusion peut compresser ces modèles en variantes efficaces à quelques étapes, mais les approches de distillation vidéo existantes adaptent largement des méthodes spécifiques aux images qui négligent les dépendances temporelles. Ces techniques excellent souvent en génération d'images mais sous-performent en synthèse vidéo, présentant une cohérence mouvement réduite, une accumulation d'erreurs sur les longues séquences et un compromis latence-qualité. Nous identifions deux facteurs à l'origine de ces limitations : une utilisation insuffisante du contexte temporel lors de la réduction d'étapes et une prédiction implicite des niveaux de bruit suivants dans la prédiction des segments suivants (c'est-à-dire un biais d'exposition). Pour résoudre ces problèmes, nous proposons la Distillation Diagonale, qui opère orthogonalement aux approches existantes et exploite mieux l'information temporelle à travers les segments vidéo et les étapes de débruitage. Au cœur de notre approche se trouve une stratégie de génération asymétrique : plus d'étapes au début, moins d'étapes plus tard. Cette conception permet aux segments ultérieurs d'hériter d'informations d'apparence riches provenant des premiers segments traités de manière approfondie, tout en utilisant des segments partiellement débruités comme entrées conditionnelles pour la synthèse suivante. En alignant la prédiction implicite des niveaux de bruit suivants lors de la génération des segments avec les conditions d'inférence réelles, notre approche atténue la propagation des erreurs et réduit la sursaturation dans les séquences longues. Nous intégrons en outre une modélisation implicite du flux optique pour préserver la qualité du mouvement sous des contraintes strictes d'étapes. Notre méthode génère une vidéo de 5 secondes en 2,61 secondes (jusqu'à 31 IPS), réalisant une accélération de 277,3x par rapport au modèle non distillé.
English
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.