Self-Forcing++ : Vers la génération de vidéos de haute qualité à l'échelle de la minute
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
October 2, 2025
papers.authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
papers.abstract
Les modèles de diffusion ont révolutionné la génération d'images et de vidéos, atteignant une qualité visuelle sans précédent. Cependant, leur dépendance aux architectures de type transformateur entraîne des coûts de calcul prohibitifs, en particulier lors de l'extension de la génération à des vidéos longues. Des travaux récents ont exploré des formulations autorégressives pour la génération de vidéos longues, généralement en distillant des enseignants bidirectionnels à court terme. Néanmoins, étant donné que les modèles enseignants ne peuvent pas synthétiser des vidéos longues, l'extrapolation des modèles étudiants au-delà de leur horizon d'entraînement conduit souvent à une dégradation prononcée de la qualité, résultant de l'accumulation d'erreurs dans l'espace latent continu. Dans cet article, nous proposons une approche simple mais efficace pour atténuer la dégradation de la qualité dans la génération de vidéos à long horizon, sans nécessiter de supervision de la part d'enseignants spécialisés dans les vidéos longues ou de réentraînement sur des ensembles de données de vidéos longues. Notre approche repose sur l'exploitation des connaissances riches des modèles enseignants pour fournir des indications au modèle étudiant à travers des segments échantillonnés issus de vidéos longues auto-générées. Notre méthode maintient la cohérence temporelle tout en augmentant la longueur des vidéos jusqu'à 20 fois au-delà des capacités de l'enseignant, évitant des problèmes courants tels que la surexposition et l'accumulation d'erreurs sans recalculer les images superposées comme le font les méthodes précédentes. Lorsque nous augmentons les ressources de calcul, notre méthode montre la capacité de générer des vidéos allant jusqu'à 4 minutes et 15 secondes, ce qui équivaut à 99,9 % de la durée maximale supportée par l'encodage de position de notre modèle de base et plus de 50 fois plus long que celui de notre modèle de référence. Les expériences sur des benchmarks standard et notre benchmark amélioré proposé démontrent que notre approche surpasse considérablement les méthodes de référence en termes de fidélité et de cohérence. Notre démonstration de vidéos à long horizon est disponible à l'adresse https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving
unprecedented visual quality. However, their reliance on transformer
architectures incurs prohibitively high computational costs, particularly when
extending generation to long videos. Recent work has explored autoregressive
formulations for long video generation, typically by distilling from
short-horizon bidirectional teachers. Nevertheless, given that teacher models
cannot synthesize long videos, the extrapolation of student models beyond their
training horizon often leads to pronounced quality degradation, arising from
the compounding of errors within the continuous latent space. In this paper, we
propose a simple yet effective approach to mitigate quality degradation in
long-horizon video generation without requiring supervision from long-video
teachers or retraining on long video datasets. Our approach centers on
exploiting the rich knowledge of teacher models to provide guidance for the
student model through sampled segments drawn from self-generated long videos.
Our method maintains temporal consistency while scaling video length by up to
20x beyond teacher's capability, avoiding common issues such as over-exposure
and error-accumulation without recomputing overlapping frames like previous
methods. When scaling up the computation, our method shows the capability of
generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the
maximum span supported by our base model's position embedding and more than 50x
longer than that of our baseline model. Experiments on standard benchmarks and
our proposed improved benchmark demonstrate that our approach substantially
outperforms baseline methods in both fidelity and consistency. Our long-horizon
videos demo can be found at https://self-forcing-plus-plus.github.io/