ローリング強制:リアルタイムでの自己回帰的長尺動画拡散
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
September 29, 2025
著者: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI
要旨
ストリーミング動画生成は、インタラクティブな世界モデルやニューラルゲームエンジンの基本的な構成要素の一つとして、高品質で低遅延、かつ時間的に一貫した長尺動画ストリームを生成することを目的としている。しかし、既存の研究の多くは、長尺の生成動画において深刻な誤差蓄積に悩まされており、これが生成動画の品質を大幅に低下させることが多い。本研究では、誤差蓄積を最小限に抑えつつ長尺動画をストリーミング生成するための新たな手法「Rolling Forcing」を提案する。Rolling Forcingは、以下の3つの新たな設計を特徴とする。第一に、誤差伝播を加速する個別フレームの反復サンプリングではなく、複数のフレームを同時にノイズ除去する共同ノイズ除去スキームを設計する。この設計により、隣接フレーム間の厳密な因果関係が緩和され、誤差の増大が効果的に抑制される。第二に、長尺ストリーミング動画生成タスクに「アテンションシンク」メカニズムを導入し、初期フレームのキー値状態をグローバルコンテキストのアンカーとして保持することで、長期的なグローバル一貫性を向上させる。第三に、大幅に拡張されたノイズ除去ウィンドウ上で少ステップ蒸留を可能にする効率的な学習アルゴリズムを設計する。このアルゴリズムは非重複ウィンドウ上で動作し、自己生成履歴に基づく露出バイアスを軽減する。大規模な実験により、Rolling Forcingが単一のGPU上で数分間の動画をリアルタイムにストリーミング生成し、誤差蓄積を大幅に低減できることが示された。
English
Streaming video generation, as one fundamental component in interactive world
models and neural game engines, aims to generate high-quality, low-latency, and
temporally coherent long video streams. However, most existing work suffers
from severe error accumulation that often significantly degrades the generated
stream videos over long horizons. We design Rolling Forcing, a novel video
generation technique that enables streaming long videos with minimal error
accumulation. Rolling Forcing comes with three novel designs. First, instead of
iteratively sampling individual frames, which accelerates error propagation, we
design a joint denoising scheme that simultaneously denoises multiple frames
with progressively increasing noise levels. This design relaxes the strict
causality across adjacent frames, effectively suppressing error growth. Second,
we introduce the attention sink mechanism into the long-horizon stream video
generation task, which allows the model to keep key value states of initial
frames as a global context anchor and thereby enhances long-term global
consistency. Third, we design an efficient training algorithm that enables
few-step distillation over largely extended denoising windows. This algorithm
operates on non-overlapping windows and mitigates exposure bias conditioned on
self-generated histories. Extensive experiments show that Rolling Forcing
enables real-time streaming generation of multi-minute videos on a single GPU,
with substantially reduced error accumulation.