ChatPaper.aiChatPaper

SwiftBrush v2: Maak je één-stap diffusiemodel beter dan zijn leraar

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

August 26, 2024
Auteurs: Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran
cs.AI

Samenvatting

In dit artikel streven we ernaar de prestaties van SwiftBrush, een vooraanstaand één-staps tekst-naar-beeld diffusiemodel, te verbeteren om competitief te zijn met zijn meer-staps Stable Diffusion tegenhanger. Eerst onderzoeken we de kwaliteit-diversiteit afweging tussen SwiftBrush en SD Turbo: de eerste blinkt uit in beelddiversiteit, terwijl de laatste uitblinkt in beeldkwaliteit. Deze observatie motiveert onze voorgestelde aanpassingen in de trainingsmethodologie, waaronder betere gewichtsinitialisatie en efficiënte LoRA-training. Bovendien verbetert onze introductie van een nieuwe geklemde CLIP-loss de uitlijning tussen beeld en tekst en resulteert dit in een verbeterde beeldkwaliteit. Opmerkelijk genoeg bereiken we door het combineren van de gewichten van modellen die zijn getraind met efficiënte LoRA en volledige training een nieuw state-of-the-art één-staps diffusiemodel, met een FID van 8.14, waarmee we alle GAN-gebaseerde en meer-staps Stable Diffusion-modellen overtreffen. De evaluatiecode is beschikbaar op: https://github.com/vinairesearch/swiftbrushv2.
English
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The evaluation code is available at: https://github.com/vinairesearch/swiftbrushv2.

Summary

AI-Generated Summary

PDF636November 16, 2024