Diffusion Adversarial Post-Training pour la Génération Vidéo en Une Étape
Diffusion Adversarial Post-Training for One-Step Video Generation
January 14, 2025
Auteurs: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI
Résumé
Les modèles de diffusion sont largement utilisés pour la génération d'images et de vidéos, mais leur processus itératif de génération est lent et coûteux. Alors que les approches de distillation existantes ont démontré le potentiel d'une génération en une seule étape dans le domaine de l'image, elles souffrent encore d'une dégradation significative de la qualité. Dans ce travail, nous proposons l'Entraînement Post-Adversarial (APT) contre des données réelles suivant la pré-formation par diffusion pour la génération de vidéos en une seule étape. Pour améliorer la stabilité et la qualité de l'entraînement, nous introduisons plusieurs améliorations à l'architecture du modèle et aux procédures d'entraînement, ainsi qu'un objectif de régularisation R1 approximatif. Empiriquement, nos expériences montrent que notre modèle post-entraîné de manière adversariale, Seaweed-APT, peut générer des vidéos de 2 secondes, 1280x720, 24 images par seconde en temps réel en utilisant une seule étape d'évaluation directe. De plus, notre modèle est capable de générer des images de 1024px en une seule étape, atteignant une qualité comparable aux méthodes de pointe.
English
The diffusion models are widely used for image and video generation, but
their iterative generation process is slow and expansive. While existing
distillation approaches have demonstrated the potential for one-step generation
in the image domain, they still suffer from significant quality degradation. In
this work, we propose Adversarial Post-Training (APT) against real data
following diffusion pre-training for one-step video generation. To improve the
training stability and quality, we introduce several improvements to the model
architecture and training procedures, along with an approximated R1
regularization objective. Empirically, our experiments show that our
adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720,
24fps videos in real time using a single forward evaluation step. Additionally,
our model is capable of generating 1024px images in a single step, achieving
quality comparable to state-of-the-art methods.Summary
AI-Generated Summary