ChatPaper.aiChatPaper

Rolling Forcing: Autoregressive Langzeit-Videodiffusion in Echtzeit

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

September 29, 2025
papers.authors: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI

papers.abstract

Die Erzeugung von Streaming-Videos, als eine grundlegende Komponente in interaktiven Weltmodellen und neuronalen Spiel-Engines, zielt darauf ab, hochwertige, latenzarme und zeitlich kohärente lange Videoströme zu generieren. Die meisten bestehenden Ansätze leiden jedoch unter einer erheblichen Fehlerakkumulation, die die generierten Videoströme über lange Zeiträume oft erheblich verschlechtert. Wir entwickeln Rolling Forcing, eine neuartige Videogenerierungstechnik, die das Streaming langer Videos mit minimaler Fehlerakkumulation ermöglicht. Rolling Forcing umfasst drei innovative Designelemente. Erstens entwerfen wir anstelle der iterativen Erzeugung einzelner Frames, die die Fehlerausbreitung beschleunigt, ein gemeinsames Entrauschungsschema, das mehrere Frames gleichzeitig mit progressiv ansteigenden Rauschpegeln entrauscht. Dieser Ansatz lockert die strikte Kausalität zwischen benachbarten Frames und unterdrückt effektiv das Fehlerwachstum. Zweitens führen wir den Attention-Sink-Mechanismus in die Aufgabe der langfristigen Videostromgenerierung ein, wodurch das Modell die Schlüsselwertzustände der Anfangsframes als globalen Kontextanker behalten kann und somit die langfristige globale Konsistenz verbessert. Drittens entwickeln wir einen effizienten Trainingsalgorithmus, der eine Distillation mit wenigen Schritten über stark erweiterte Entrauschungsfenster ermöglicht. Dieser Algorithmus arbeitet auf nicht überlappenden Fenstern und reduziert den Exposure Bias, der auf selbstgenerierten Verläufen basiert. Umfangreiche Experimente zeigen, dass Rolling Forcing die Echtzeit-Streaming-Generierung von mehrminütigen Videos auf einer einzelnen GPU ermöglicht, wobei die Fehlerakkumulation erheblich reduziert wird.
English
Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.
PDF133September 30, 2025