SwiftBrush v2: Rendi il tuo modello di diffusione one-step migliore del suo insegnante
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher
August 26, 2024
Autori: Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran
cs.AI
Abstract
In questo articolo, ci proponiamo di migliorare le prestazioni di SwiftBrush, un notevole modello di diffusione one-step per la generazione di immagini da testo, per renderlo competitivo con la sua controparte multi-step Stable Diffusion. Inizialmente, esploriamo il compromesso qualità-diversità tra SwiftBrush e SD Turbo: il primo eccelle nella diversità delle immagini, mentre il secondo nella qualità. Questa osservazione motiva le nostre modifiche proposte nella metodologia di addestramento, tra cui una migliore inizializzazione dei pesi e un addestramento efficiente di LoRA. Inoltre, l'introduzione di una nuova funzione di perdita CLIP con clamp migliora l'allineamento immagine-testo e porta a una qualità delle immagini superiore. Notevolmente, combinando i pesi di modelli addestrati con LoRA efficiente e addestramento completo, otteniamo un nuovo modello di diffusione one-step all'avanguardia, raggiungendo un FID di 8,14 e superando tutti i modelli basati su GAN e i modelli multi-step di Stable Diffusion. Il codice di valutazione è disponibile all'indirizzo: https://github.com/vinairesearch/swiftbrushv2.
English
In this paper, we aim to enhance the performance of SwiftBrush, a prominent
one-step text-to-image diffusion model, to be competitive with its multi-step
Stable Diffusion counterpart. Initially, we explore the quality-diversity
trade-off between SwiftBrush and SD Turbo: the former excels in image
diversity, while the latter excels in image quality. This observation motivates
our proposed modifications in the training methodology, including better weight
initialization and efficient LoRA training. Moreover, our introduction of a
novel clamped CLIP loss enhances image-text alignment and results in improved
image quality. Remarkably, by combining the weights of models trained with
efficient LoRA and full training, we achieve a new state-of-the-art one-step
diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and
multi-step Stable Diffusion models. The evaluation code is available at:
https://github.com/vinairesearch/swiftbrushv2.