Self-Forcing++: 分単位の高品質ビデオ生成に向けて
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
October 2, 2025
著者: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
要旨
拡散モデルは画像および動画生成に革命をもたらし、前例のない視覚的品質を実現しました。しかし、トランスフォーマーアーキテクチャへの依存性により、特に長時間の動画生成に拡張する際に、計算コストが過度に高くなります。最近の研究では、短時間の双方向教師モデルからの蒸留を通じて、長時間動画生成のための自己回帰的定式化が探求されています。しかし、教師モデルが長時間の動画を合成できないため、学生モデルが訓練範囲を超えて外挿する際に、連続的な潜在空間内での誤差の蓄積により、品質の著しい低下が生じることがしばしばあります。本論文では、長時間動画生成における品質低下を軽減するためのシンプルかつ効果的なアプローチを提案します。このアプローチでは、長時間動画の教師モデルからの監督や長時間動画データセットの再訓練を必要としません。私たちの方法は、教師モデルの豊富な知識を活用し、自己生成した長時間動画から抽出したセグメントを通じて学生モデルにガイダンスを提供することに焦点を当てています。この方法は、教師モデルの能力を最大20倍までスケールアップしながら時間的一貫性を維持し、過剰露出や誤差蓄積といった一般的な問題を回避します。また、従来の方法のように重複フレームを再計算する必要もありません。計算をスケールアップする際、私たちの方法は4分15秒までの動画生成能力を示し、これはベースモデルの位置埋め込みがサポートする最大スパンの99.9%に相当し、ベースラインモデルの50倍以上に及びます。標準ベンチマークおよび私たちが提案した改良ベンチマークでの実験により、このアプローチが忠実度と一貫性の両方においてベースライン手法を大幅に上回ることが実証されました。長時間動画のデモはhttps://self-forcing-plus-plus.github.io/でご覧いただけます。
English
Diffusion models have revolutionized image and video generation, achieving
unprecedented visual quality. However, their reliance on transformer
architectures incurs prohibitively high computational costs, particularly when
extending generation to long videos. Recent work has explored autoregressive
formulations for long video generation, typically by distilling from
short-horizon bidirectional teachers. Nevertheless, given that teacher models
cannot synthesize long videos, the extrapolation of student models beyond their
training horizon often leads to pronounced quality degradation, arising from
the compounding of errors within the continuous latent space. In this paper, we
propose a simple yet effective approach to mitigate quality degradation in
long-horizon video generation without requiring supervision from long-video
teachers or retraining on long video datasets. Our approach centers on
exploiting the rich knowledge of teacher models to provide guidance for the
student model through sampled segments drawn from self-generated long videos.
Our method maintains temporal consistency while scaling video length by up to
20x beyond teacher's capability, avoiding common issues such as over-exposure
and error-accumulation without recomputing overlapping frames like previous
methods. When scaling up the computation, our method shows the capability of
generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the
maximum span supported by our base model's position embedding and more than 50x
longer than that of our baseline model. Experiments on standard benchmarks and
our proposed improved benchmark demonstrate that our approach substantially
outperforms baseline methods in both fidelity and consistency. Our long-horizon
videos demo can be found at https://self-forcing-plus-plus.github.io/