ChatPaper.aiChatPaper

Generazione Autoregressiva di Video in Streaming tramite Distillazione Diagonale

Streaming Autoregressive Video Generation via Diagonal Distillation

March 10, 2026
Autori: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
cs.AI

Abstract

I grandi modelli diffusion preaddestrati hanno notevolmente migliorato la qualità dei video generati, ma il loro utilizzo nello streaming in tempo reale rimane limitato. I modelli autoregressivi offrono una struttura naturale per la sintesi sequenziale dei fotogrammi, ma richiedono un calcolo intensivo per raggiungere un'alta fedeltà. La distillazione diffusion può comprimere questi modelli in varianti efficienti a pochi passi, ma gli approcci di distillazione video esistenti adattano in gran parte metodi specifici per immagini che trascurano le dipendenze temporali. Queste tecniche spesso eccellono nella generazione di immagini ma sottoperformano nella sintesi video, mostrando una coerenza del movimento ridotta, un accumulo di errori su sequenze lunghe e un compromesso tra latenza e qualità. Identifichiamo due fattori alla base di queste limitazioni: un utilizzo insufficiente del contesto temporale durante la riduzione dei passi e la previsione implicita dei livelli di rumore successivi nella previsione del chunk successivo (cioè, bias di esposizione). Per affrontare questi problemi, proponiamo la Distillazione Diagonale, che opera in modo ortogonale agli approcci esistenti e sfrutta meglio l'informazione temporale sia tra i chunk video che tra i passi di denoising. Elemento centrale del nostro approccio è una strategia di generazione asimmetrica: più passi all'inizio, meno passi dopo. Questo progetto consente ai chunk successivi di ereditare ricche informazioni d'aspetto dai chunk iniziali elaborati approfonditamente, utilizzando allo stesso tempo chunk parzialmente denoisati come input condizionali per la sintesi successiva. Allineando la previsione implicita dei livelli di rumore successivi durante la generazione del chunk con le condizioni di inferenza effettive, il nostro approccio mitiga la propagazione degli errori e riduce la sovrasaturazione in sequenze a lungo raggio. Incorporiamo inoltre una modellazione implicita del flusso ottico per preservare la qualità del movimento sotto stringenti vincoli di passi. Il nostro metodo genera un video di 5 secondi in 2,61 secondi (fino a 31 FPS), ottenendo un'accelerazione di 277,3x rispetto al modello non distillato.
English
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.
PDF52March 26, 2026