自己再サンプリングによる自己回帰的ビデオ拡散モデルのエンドツーエンド学習
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
December 17, 2025
著者: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI
要旨
自己回帰型ビデオ拡散モデルは世界シミュレーションへの可能性を秘めるが、訓練時と推論時の不一致に起因するエクスポージャーバイアスに弱い。近年の研究は学習後処理でこの問題に対処するが、双方向教師モデルやオンライン識別器に依存する場合が多い。我々はエンドツーエンドの解決策として、教師モデルを必要とせず、自己回帰型ビデオモデルをゼロから大規模に訓練可能なResampling Forcingを提案する。本手法の中核は、訓練時に履歴フレーム上で推論時のモデル誤差を模倣する自己再サンプリング機構である。劣化した履歴を条件として、疎な因果マスクが時間的因果性を保証しつつ、フレーム単位の拡散損失による並列訓練を可能にする。効率的な長尺生成を実現するため、クエリごとに最も関連性の高いk個の履歴フレームを動的に取得するパラメータ不要機構である履歴ルーティングをさらに導入する。実験により、本手法が蒸留ベースのベースラインと同等の性能を達成しつつ、自然長の訓練により長尺ビデオで優れた時間的一貫性を発揮することを実証する。
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.