ChatPaper.aiChatPaper

Self-Forcing++ : Vers la génération de vidéos de haute qualité à l'échelle de la minute

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

October 2, 2025
papers.authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

papers.abstract

Les modèles de diffusion ont révolutionné la génération d'images et de vidéos, atteignant une qualité visuelle sans précédent. Cependant, leur dépendance aux architectures de type transformateur entraîne des coûts de calcul prohibitifs, en particulier lors de l'extension de la génération à des vidéos longues. Des travaux récents ont exploré des formulations autorégressives pour la génération de vidéos longues, généralement en distillant des enseignants bidirectionnels à court terme. Néanmoins, étant donné que les modèles enseignants ne peuvent pas synthétiser des vidéos longues, l'extrapolation des modèles étudiants au-delà de leur horizon d'entraînement conduit souvent à une dégradation prononcée de la qualité, résultant de l'accumulation d'erreurs dans l'espace latent continu. Dans cet article, nous proposons une approche simple mais efficace pour atténuer la dégradation de la qualité dans la génération de vidéos à long horizon, sans nécessiter de supervision de la part d'enseignants spécialisés dans les vidéos longues ou de réentraînement sur des ensembles de données de vidéos longues. Notre approche repose sur l'exploitation des connaissances riches des modèles enseignants pour fournir des indications au modèle étudiant à travers des segments échantillonnés issus de vidéos longues auto-générées. Notre méthode maintient la cohérence temporelle tout en augmentant la longueur des vidéos jusqu'à 20 fois au-delà des capacités de l'enseignant, évitant des problèmes courants tels que la surexposition et l'accumulation d'erreurs sans recalculer les images superposées comme le font les méthodes précédentes. Lorsque nous augmentons les ressources de calcul, notre méthode montre la capacité de générer des vidéos allant jusqu'à 4 minutes et 15 secondes, ce qui équivaut à 99,9 % de la durée maximale supportée par l'encodage de position de notre modèle de base et plus de 50 fois plus long que celui de notre modèle de référence. Les expériences sur des benchmarks standard et notre benchmark amélioré proposé démontrent que notre approche surpasse considérablement les méthodes de référence en termes de fidélité et de cohérence. Notre démonstration de vidéos à long horizon est disponible à l'adresse https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher's capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/
PDF863October 3, 2025