ChatPaper.aiChatPaper

Diffusie Adversariële Post-Training voor Eén-Stap Video Generatie

Diffusion Adversarial Post-Training for One-Step Video Generation

January 14, 2025
Auteurs: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI

Samenvatting

De diffusiemodellen worden veel gebruikt voor beeld- en videogeneratie, maar hun iteratieve generatieproces is traag en kostbaar. Hoewel bestaande distillatiebenaderingen het potentieel hebben aangetoond voor generatie in één stap in het beelddomein, kampen ze nog steeds met aanzienlijke kwaliteitsdegradatie. In dit werk stellen we Adversarial Post-Training (APT) voor tegen echte gegevens na diffusie voorafgaande training voor generatie van video in één stap. Om de trainingsstabiliteit en kwaliteit te verbeteren, introduceren we verschillende verbeteringen aan de modelarchitectuur en trainingsprocedures, samen met een benaderde R1-regularisatie doelstelling. Empirisch tonen onze experimenten aan dat ons adversarieel post-getrainde model, Seaweed-APT, in realtime 2-seconden, 1280x720, 24fps video's kan genereren met behulp van een enkele voorwaartse evaluatiestap. Bovendien is ons model in staat om 1024px beelden in één stap te genereren, met een kwaliteit vergelijkbaar met state-of-the-art methoden.
English
The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.

Summary

AI-Generated Summary

PDF344January 15, 2025