Rolling Forcing: Diffusione Autoregressiva di Video Lunghi in Tempo Reale
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
September 29, 2025
Autori: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI
Abstract
La generazione di video in streaming, come componente fondamentale nei modelli di mondo interattivi e nei motori di gioco neurali, mira a produrre flussi video lunghi di alta qualità, a bassa latenza e temporalmente coerenti. Tuttavia, la maggior parte del lavoro esistente soffre di un grave accumulo di errori che spesso degrada significativamente i video generati su orizzonti temporali lunghi. Progettiamo Rolling Forcing, una nuova tecnica di generazione video che consente la trasmissione in streaming di video lunghi con un accumulo di errori minimo. Rolling Forcing è caratterizzato da tre innovazioni. Innanzitutto, invece di campionare iterativamente singoli fotogrammi, il che accelera la propagazione degli errori, progettiamo uno schema di denoising congiunto che elimina il rumore da più fotogrammi simultaneamente con livelli di rumore progressivamente crescenti. Questo design rilassa la stretta causalità tra fotogrammi adiacenti, sopprimendo efficacemente la crescita degli errori. In secondo luogo, introduciamo il meccanismo di attenzione sink nel compito di generazione di video in streaming a lungo termine, che consente al modello di mantenere gli stati chiave dei fotogrammi iniziali come ancoraggio contestuale globale, migliorando così la coerenza globale a lungo termine. Terzo, progettiamo un algoritmo di addestramento efficiente che consente la distillazione in pochi passi su finestre di denoising estese. Questo algoritmo opera su finestre non sovrapposte e mitiga il bias di esposizione condizionato alle storie auto-generate. Esperimenti estesi dimostrano che Rolling Forcing consente la generazione in streaming in tempo reale di video della durata di diversi minuti su una singola GPU, con un accumulo di errori sostanzialmente ridotto.
English
Streaming video generation, as one fundamental component in interactive world
models and neural game engines, aims to generate high-quality, low-latency, and
temporally coherent long video streams. However, most existing work suffers
from severe error accumulation that often significantly degrades the generated
stream videos over long horizons. We design Rolling Forcing, a novel video
generation technique that enables streaming long videos with minimal error
accumulation. Rolling Forcing comes with three novel designs. First, instead of
iteratively sampling individual frames, which accelerates error propagation, we
design a joint denoising scheme that simultaneously denoises multiple frames
with progressively increasing noise levels. This design relaxes the strict
causality across adjacent frames, effectively suppressing error growth. Second,
we introduce the attention sink mechanism into the long-horizon stream video
generation task, which allows the model to keep key value states of initial
frames as a global context anchor and thereby enhances long-term global
consistency. Third, we design an efficient training algorithm that enables
few-step distillation over largely extended denoising windows. This algorithm
operates on non-overlapping windows and mitigates exposure bias conditioned on
self-generated histories. Extensive experiments show that Rolling Forcing
enables real-time streaming generation of multi-minute videos on a single GPU,
with substantially reduced error accumulation.