Forçage par Roulement : Diffusion Autoregressive de Vidéos Longues en Temps Réel
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
September 29, 2025
papers.authors: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI
papers.abstract
La génération de vidéos en flux continu, en tant que composant fondamental des modèles interactifs du monde et des moteurs de jeux neuronaux, vise à produire des flux vidéo longs de haute qualité, à faible latence et cohérents temporellement. Cependant, la plupart des travaux existants souffrent d'une accumulation d'erreurs importante qui dégrade souvent de manière significative les vidéos générées sur de longues durées. Nous concevons **Rolling Forcing**, une nouvelle technique de génération vidéo qui permet de diffuser des vidéos longues avec une accumulation d'erreurs minimale. Rolling Forcing repose sur trois innovations majeures. Premièrement, au lieu d'échantillonner itérativement des images individuelles, ce qui accélère la propagation des erreurs, nous proposons un schéma de débruitage conjoint qui débruite simultanément plusieurs images avec des niveaux de bruit progressivement croissants. Cette conception relâche la causalité stricte entre images adjacentes, supprimant efficacement la croissance des erreurs. Deuxièmement, nous introduisons le mécanisme de **point d'attention** dans la tâche de génération de vidéos en flux continu sur de longues durées, permettant au modèle de conserver les états de valeur clé des images initiales comme ancre contextuelle globale, améliorant ainsi la cohérence globale à long terme. Troisièmement, nous concevons un algorithme d'entraînement efficace qui permet une distillation en quelques étapes sur des fenêtres de débruitage largement étendues. Cet algorithme opère sur des fenêtres non chevauchantes et atténue le biais d'exposition conditionné par les historiques auto-générés. Des expériences approfondies montrent que Rolling Forcing permet la génération en temps réel de vidéos de plusieurs minutes sur un seul GPU, avec une accumulation d'erreurs considérablement réduite.
English
Streaming video generation, as one fundamental component in interactive world
models and neural game engines, aims to generate high-quality, low-latency, and
temporally coherent long video streams. However, most existing work suffers
from severe error accumulation that often significantly degrades the generated
stream videos over long horizons. We design Rolling Forcing, a novel video
generation technique that enables streaming long videos with minimal error
accumulation. Rolling Forcing comes with three novel designs. First, instead of
iteratively sampling individual frames, which accelerates error propagation, we
design a joint denoising scheme that simultaneously denoises multiple frames
with progressively increasing noise levels. This design relaxes the strict
causality across adjacent frames, effectively suppressing error growth. Second,
we introduce the attention sink mechanism into the long-horizon stream video
generation task, which allows the model to keep key value states of initial
frames as a global context anchor and thereby enhances long-term global
consistency. Third, we design an efficient training algorithm that enables
few-step distillation over largely extended denoising windows. This algorithm
operates on non-overlapping windows and mitigates exposure bias conditioned on
self-generated histories. Extensive experiments show that Rolling Forcing
enables real-time streaming generation of multi-minute videos on a single GPU,
with substantially reduced error accumulation.