Rolling Forcing: Autoregressive Langzeit-Videodiffusion in Echtzeit
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
September 29, 2025
papers.authors: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI
papers.abstract
Die Erzeugung von Streaming-Videos, als eine grundlegende Komponente in interaktiven Weltmodellen und neuronalen Spiel-Engines, zielt darauf ab, hochwertige, latenzarme und zeitlich kohärente lange Videoströme zu generieren. Die meisten bestehenden Ansätze leiden jedoch unter einer erheblichen Fehlerakkumulation, die die generierten Videoströme über lange Zeiträume oft erheblich verschlechtert. Wir entwickeln Rolling Forcing, eine neuartige Videogenerierungstechnik, die das Streaming langer Videos mit minimaler Fehlerakkumulation ermöglicht. Rolling Forcing umfasst drei innovative Designelemente. Erstens entwerfen wir anstelle der iterativen Erzeugung einzelner Frames, die die Fehlerausbreitung beschleunigt, ein gemeinsames Entrauschungsschema, das mehrere Frames gleichzeitig mit progressiv ansteigenden Rauschpegeln entrauscht. Dieser Ansatz lockert die strikte Kausalität zwischen benachbarten Frames und unterdrückt effektiv das Fehlerwachstum. Zweitens führen wir den Attention-Sink-Mechanismus in die Aufgabe der langfristigen Videostromgenerierung ein, wodurch das Modell die Schlüsselwertzustände der Anfangsframes als globalen Kontextanker behalten kann und somit die langfristige globale Konsistenz verbessert. Drittens entwickeln wir einen effizienten Trainingsalgorithmus, der eine Distillation mit wenigen Schritten über stark erweiterte Entrauschungsfenster ermöglicht. Dieser Algorithmus arbeitet auf nicht überlappenden Fenstern und reduziert den Exposure Bias, der auf selbstgenerierten Verläufen basiert. Umfangreiche Experimente zeigen, dass Rolling Forcing die Echtzeit-Streaming-Generierung von mehrminütigen Videos auf einer einzelnen GPU ermöglicht, wobei die Fehlerakkumulation erheblich reduziert wird.
English
Streaming video generation, as one fundamental component in interactive world
models and neural game engines, aims to generate high-quality, low-latency, and
temporally coherent long video streams. However, most existing work suffers
from severe error accumulation that often significantly degrades the generated
stream videos over long horizons. We design Rolling Forcing, a novel video
generation technique that enables streaming long videos with minimal error
accumulation. Rolling Forcing comes with three novel designs. First, instead of
iteratively sampling individual frames, which accelerates error propagation, we
design a joint denoising scheme that simultaneously denoises multiple frames
with progressively increasing noise levels. This design relaxes the strict
causality across adjacent frames, effectively suppressing error growth. Second,
we introduce the attention sink mechanism into the long-horizon stream video
generation task, which allows the model to keep key value states of initial
frames as a global context anchor and thereby enhances long-term global
consistency. Third, we design an efficient training algorithm that enables
few-step distillation over largely extended denoising windows. This algorithm
operates on non-overlapping windows and mitigates exposure bias conditioned on
self-generated histories. Extensive experiments show that Rolling Forcing
enables real-time streaming generation of multi-minute videos on a single GPU,
with substantially reduced error accumulation.