ChatPaper.aiChatPaper

SwiftBrush v2: Machen Sie Ihr Ein-Schritt-Diffusionsmodell besser als seinen Lehrer

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

August 26, 2024
Autoren: Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran
cs.AI

Zusammenfassung

In diesem Paper zielen wir darauf ab, die Leistung von SwiftBrush, einem prominenten Ein-Schritt-Text-zu-Bild-Diffusionsmodell, zu verbessern, um wettbewerbsfähig mit seinem mehrstufigen Stable Diffusion Pendant zu sein. Zunächst untersuchen wir den Qualitätsvielfalts-Kompromiss zwischen SwiftBrush und SD Turbo: Ersteres zeichnet sich durch Bildvielfalt aus, während Letzteres in Bildqualität herausragt. Diese Beobachtung motiviert unsere vorgeschlagenen Modifikationen in der Trainingsmethodik, einschließlich einer besseren Gewichtsinitialisierung und effizientem LoRA-Training. Darüber hinaus verbessert unsere Einführung eines neuartigen geklemmten CLIP-Verlusts die Bild-Text-Ausrichtung und führt zu einer verbesserten Bildqualität. Bemerkenswerterweise erreichen wir durch die Kombination der Gewichte von Modellen, die mit effizientem LoRA und vollem Training trainiert wurden, ein neues State-of-the-Art Ein-Schritt-Diffusionsmodell mit einem FID von 8,14 und übertrifft alle GAN-basierten und mehrstufigen Stable Diffusion Modelle. Der Evaluierungscode ist verfügbar unter: https://github.com/vinairesearch/swiftbrushv2.
English
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The evaluation code is available at: https://github.com/vinairesearch/swiftbrushv2.

Summary

AI-Generated Summary

PDF636November 16, 2024