ChatPaper.aiChatPaper

Rolling Forcing: Autoregressieve Lange Video-diffusie in Realtime

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

September 29, 2025
Auteurs: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI

Samenvatting

Streaming video-generatie, als een fundamenteel onderdeel van interactieve wereldmodellen en neurale game-engines, heeft als doel hoogwaardige, low-latency en temporeel coherente lange videostreams te genereren. De meeste bestaande methoden kampen echter met ernstige foutaccumulatie, wat vaak leidt tot een aanzienlijke verslechtering van de gegenereerde videostreams over langere tijdsperioden. Wij ontwerpen Rolling Forcing, een nieuwe techniek voor videogeneratie die het mogelijk maakt om lange videostreams te genereren met minimale foutaccumulatie. Rolling Forcing omvat drie nieuwe ontwerpen. Ten eerste, in plaats van iteratief individuele frames te bemonsteren, wat de foutpropagatie versnelt, ontwerpen we een gezamenlijk denoisingschema dat meerdere frames tegelijkertijd denoiseert met progressief toenemende ruisniveaus. Dit ontwerp versoepelt de strikte causaliteit tussen aangrenzende frames, waardoor foutgroei effectief wordt onderdrukt. Ten tweede introduceren we het attention sink-mechanisme in de taak van lange-termijn videostreamgeneratie, waardoor het model de sleutelwaardestatus van initiële frames kan behouden als een globaal contextanker, wat de langetermijn globale consistentie versterkt. Ten derde ontwerpen we een efficiënt trainingsalgoritme dat few-step distillatie mogelijk maakt over sterk uitgebreide denoisingvensters. Dit algoritme werkt op niet-overlappende vensters en vermindert exposure bias die is geconditioneerd op zelf-gegenereerde geschiedenissen. Uitgebreide experimenten tonen aan dat Rolling Forcing real-time streaminggeneratie van video’s van meerdere minuten mogelijk maakt op een enkele GPU, met aanzienlijk verminderde foutaccumulatie.
English
Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.
PDF233September 30, 2025