Forçage par Roulement : Diffusion Autoregressive de Vidéos Longues en Temps Réel

papers.abstract

La génération de vidéos en flux continu, en tant que composant fondamental des modèles interactifs du monde et des moteurs de jeux neuronaux, vise à produire des flux vidéo longs de haute qualité, à faible latence et cohérents temporellement. Cependant, la plupart des travaux existants souffrent d'une accumulation d'erreurs importante qui dégrade souvent de manière significative les vidéos générées sur de longues durées. Nous concevons **Rolling Forcing**, une nouvelle technique de génération vidéo qui permet de diffuser des vidéos longues avec une accumulation d'erreurs minimale. Rolling Forcing repose sur trois innovations majeures. Premièrement, au lieu d'échantillonner itérativement des images individuelles, ce qui accélère la propagation des erreurs, nous proposons un schéma de débruitage conjoint qui débruite simultanément plusieurs images avec des niveaux de bruit progressivement croissants. Cette conception relâche la causalité stricte entre images adjacentes, supprimant efficacement la croissance des erreurs. Deuxièmement, nous introduisons le mécanisme de **point d'attention** dans la tâche de génération de vidéos en flux continu sur de longues durées, permettant au modèle de conserver les états de valeur clé des images initiales comme ancre contextuelle globale, améliorant ainsi la cohérence globale à long terme. Troisièmement, nous concevons un algorithme d'entraînement efficace qui permet une distillation en quelques étapes sur des fenêtres de débruitage largement étendues. Cet algorithme opère sur des fenêtres non chevauchantes et atténue le biais d'exposition conditionné par les historiques auto-générés. Des expériences approfondies montrent que Rolling Forcing permet la génération en temps réel de vidéos de plusieurs minutes sur un seul GPU, avec une accumulation d'erreurs considérablement réduite.

English

Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.

Forçage par Roulement : Diffusion Autoregressive de Vidéos Longues en Temps Réel

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

papers.abstract

Support