Принудительное качение: Авторегрессивная диффузия длинных видео в реальном времени
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
September 29, 2025
Авторы: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI
Аннотация
Генерация потокового видео, как один из фундаментальных компонентов интерактивных моделей мира и нейронных игровых движков, направлена на создание высококачественных, низколатентных и временно согласованных длинных видеопотоков. Однако большинство существующих подходов страдает от значительного накопления ошибок, что часто существенно ухудшает качество генерируемых видеопотоков на длительных временных горизонтах. Мы разработали Rolling Forcing — новую технику генерации видео, которая позволяет создавать длинные видеопотоки с минимальным накоплением ошибок. Rolling Forcing включает три ключевых нововведения. Во-первых, вместо итеративной выборки отдельных кадров, что ускоряет распространение ошибок, мы разработали схему совместного шумоподавления, которая одновременно обрабатывает несколько кадров с постепенно увеличивающимся уровнем шума. Этот подход ослабляет строгую причинно-следственную связь между соседними кадрами, эффективно подавляя рост ошибок. Во-вторых, мы внедрили механизм attention sink в задачу генерации длинных видеопотоков, что позволяет модели сохранять ключевые состояния начальных кадров в качестве глобального контекстного якоря, тем самым улучшая долгосрочную глобальную согласованность. В-третьих, мы разработали эффективный алгоритм обучения, который позволяет проводить дистилляцию за несколько шагов на значительно расширенных окнах шумоподавления. Этот алгоритм работает на непересекающихся окнах и снижает смещение, обусловленное использованием самостоятельно сгенерированных данных. Эксперименты показывают, что Rolling Forcing позволяет в реальном времени генерировать многоминутные видео на одном GPU с существенно сниженным накоплением ошибок.
English
Streaming video generation, as one fundamental component in interactive world
models and neural game engines, aims to generate high-quality, low-latency, and
temporally coherent long video streams. However, most existing work suffers
from severe error accumulation that often significantly degrades the generated
stream videos over long horizons. We design Rolling Forcing, a novel video
generation technique that enables streaming long videos with minimal error
accumulation. Rolling Forcing comes with three novel designs. First, instead of
iteratively sampling individual frames, which accelerates error propagation, we
design a joint denoising scheme that simultaneously denoises multiple frames
with progressively increasing noise levels. This design relaxes the strict
causality across adjacent frames, effectively suppressing error growth. Second,
we introduce the attention sink mechanism into the long-horizon stream video
generation task, which allows the model to keep key value states of initial
frames as a global context anchor and thereby enhances long-term global
consistency. Third, we design an efficient training algorithm that enables
few-step distillation over largely extended denoising windows. This algorithm
operates on non-overlapping windows and mitigates exposure bias conditioned on
self-generated histories. Extensive experiments show that Rolling Forcing
enables real-time streaming generation of multi-minute videos on a single GPU,
with substantially reduced error accumulation.