Streaming Autoregressieve Videogeneratie via Diagonale Destillatie
Streaming Autoregressive Video Generation via Diagonal Distillation
March 10, 2026
Auteurs: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
cs.AI
Samenvatting
Grote voorgetrainde diffusiemodellen hebben de kwaliteit van gegenereerde video's aanzienlijk verbeterd, maar hun toepassing in real-time streaming blijft beperkt. Autoregressieve modellen bieden een natuurlijk kader voor sequentiële framesynthese, maar vereisen zware berekeningen om hoge kwaliteit te bereiken. Diffusiedistillatie kan deze modellen comprimeren tot efficiënte varianten met weinig stappen, maar bestaande videodistillatiebenaderingen passen grotendeels beeld-specifieke methoden aan die temporele afhankelijkheden verwaarlozen. Deze technieken excelleren vaak in beeldgeneratie, maar presteren minder goed in videosynthese, met verminderde bewegingscoherentie, foutaccumulatie over lange sequenties en een latentie-kwaliteit afweging. Wij identificeren twee factoren die tot deze beperkingen leiden: onvoldoende benutting van temporele context tijdens stapreductie en impliciete voorspelling van opeenvolgende ruisniveaus in volgende-segmentvoorspelling (d.w.z. exposure bias). Om deze problemen aan te pakken, stellen wij Diagonale Distillatie voor, die orthogonaal opereert ten opzichte van bestaande benaderingen en temporele informatie beter benut over zowel videosegmenten als denoisestappen. Centraal in onze aanpak staat een asymmetrische generatiestrategie: meer stappen vroeg, minder stappen later. Dit ontwerp laat latere segmenten rijke appearance-informatie erven van grondig verwerkte vroege segmenten, terwijl gedeeltelijk gedenoiseerde segmenten als conditionele invoer worden gebruikt voor vervolgsynthese. Door de impliciete voorspelling van opeenvolgende ruisniveaus tijdens segmentgeneratie af te stemmen op de werkelijke inferentievoorwaarden, vermindert onze aanpak foutpropagatie en oversaturatie in lange sequenties. Wij integreren verder impliciete optische stroommodellering om bewegingskwaliteit te behouden onder strikte stapbeperkingen. Onze methode genereert een video van 5 seconden in 2,61 seconden (tot 31 FPS), wat een 277,3x versnelling oplevert ten opzichte van het ongedistilleerde model.
English
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.