ChatPaper.aiChatPaper

Принудительное качение: Авторегрессивная диффузия длинных видео в реальном времени

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

September 29, 2025
Авторы: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI

Аннотация

Генерация потокового видео, как один из фундаментальных компонентов интерактивных моделей мира и нейронных игровых движков, направлена на создание высококачественных, низколатентных и временно согласованных длинных видеопотоков. Однако большинство существующих подходов страдает от значительного накопления ошибок, что часто существенно ухудшает качество генерируемых видеопотоков на длительных временных горизонтах. Мы разработали Rolling Forcing — новую технику генерации видео, которая позволяет создавать длинные видеопотоки с минимальным накоплением ошибок. Rolling Forcing включает три ключевых нововведения. Во-первых, вместо итеративной выборки отдельных кадров, что ускоряет распространение ошибок, мы разработали схему совместного шумоподавления, которая одновременно обрабатывает несколько кадров с постепенно увеличивающимся уровнем шума. Этот подход ослабляет строгую причинно-следственную связь между соседними кадрами, эффективно подавляя рост ошибок. Во-вторых, мы внедрили механизм attention sink в задачу генерации длинных видеопотоков, что позволяет модели сохранять ключевые состояния начальных кадров в качестве глобального контекстного якоря, тем самым улучшая долгосрочную глобальную согласованность. В-третьих, мы разработали эффективный алгоритм обучения, который позволяет проводить дистилляцию за несколько шагов на значительно расширенных окнах шумоподавления. Этот алгоритм работает на непересекающихся окнах и снижает смещение, обусловленное использованием самостоятельно сгенерированных данных. Эксперименты показывают, что Rolling Forcing позволяет в реальном времени генерировать многоминутные видео на одном GPU с существенно сниженным накоплением ошибок.
English
Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.
PDF133September 30, 2025