Forzamiento de Rodadura: Difusión Autoregresiva de Videos Largos en Tiempo Real
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
September 29, 2025
Autores: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI
Resumen
La generación de video en streaming, como un componente fundamental en los modelos de mundo interactivo y motores de juegos neuronales, tiene como objetivo producir flujos de video largos de alta calidad, baja latencia y coherencia temporal. Sin embargo, la mayoría de los trabajos existentes sufren de una acumulación severa de errores que a menudo degrada significativamente los videos generados en horizontes temporales prolongados. Diseñamos Rolling Forcing, una técnica novedosa de generación de video que permite la transmisión de videos largos con una acumulación mínima de errores. Rolling Forcing incorpora tres diseños innovadores. En primer lugar, en lugar de muestrear iterativamente fotogramas individuales, lo que acelera la propagación de errores, diseñamos un esquema de eliminación de ruido conjunto que elimina simultáneamente el ruido de múltiples fotogramas con niveles de ruido progresivamente crecientes. Este diseño relaja la causalidad estricta entre fotogramas adyacentes, suprimiendo efectivamente el crecimiento de errores. En segundo lugar, introducimos el mecanismo de atención de anclaje en la tarea de generación de video en streaming de largo horizonte, lo que permite al modelo mantener los estados clave de los fotogramas iniciales como un ancla de contexto global, mejorando así la consistencia global a largo plazo. En tercer lugar, diseñamos un algoritmo de entrenamiento eficiente que permite la destilación en pocos pasos sobre ventanas de eliminación de ruido ampliamente extendidas. Este algoritmo opera en ventanas no superpuestas y mitiga el sesgo de exposición condicionado a historias autogeneradas. Experimentos extensivos demuestran que Rolling Forcing permite la generación en tiempo real de videos de varios minutos en una sola GPU, con una acumulación de errores sustancialmente reducida.
English
Streaming video generation, as one fundamental component in interactive world
models and neural game engines, aims to generate high-quality, low-latency, and
temporally coherent long video streams. However, most existing work suffers
from severe error accumulation that often significantly degrades the generated
stream videos over long horizons. We design Rolling Forcing, a novel video
generation technique that enables streaming long videos with minimal error
accumulation. Rolling Forcing comes with three novel designs. First, instead of
iteratively sampling individual frames, which accelerates error propagation, we
design a joint denoising scheme that simultaneously denoises multiple frames
with progressively increasing noise levels. This design relaxes the strict
causality across adjacent frames, effectively suppressing error growth. Second,
we introduce the attention sink mechanism into the long-horizon stream video
generation task, which allows the model to keep key value states of initial
frames as a global context anchor and thereby enhances long-term global
consistency. Third, we design an efficient training algorithm that enables
few-step distillation over largely extended denoising windows. This algorithm
operates on non-overlapping windows and mitigates exposure bias conditioned on
self-generated histories. Extensive experiments show that Rolling Forcing
enables real-time streaming generation of multi-minute videos on a single GPU,
with substantially reduced error accumulation.