ChatPaper.aiChatPaper

SwiftBrush v2: Rendi il tuo modello di diffusione one-step migliore del suo insegnante

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

August 26, 2024
Autori: Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran
cs.AI

Abstract

In questo articolo, ci proponiamo di migliorare le prestazioni di SwiftBrush, un notevole modello di diffusione one-step per la generazione di immagini da testo, per renderlo competitivo con la sua controparte multi-step Stable Diffusion. Inizialmente, esploriamo il compromesso qualità-diversità tra SwiftBrush e SD Turbo: il primo eccelle nella diversità delle immagini, mentre il secondo nella qualità. Questa osservazione motiva le nostre modifiche proposte nella metodologia di addestramento, tra cui una migliore inizializzazione dei pesi e un addestramento efficiente di LoRA. Inoltre, l'introduzione di una nuova funzione di perdita CLIP con clamp migliora l'allineamento immagine-testo e porta a una qualità delle immagini superiore. Notevolmente, combinando i pesi di modelli addestrati con LoRA efficiente e addestramento completo, otteniamo un nuovo modello di diffusione one-step all'avanguardia, raggiungendo un FID di 8,14 e superando tutti i modelli basati su GAN e i modelli multi-step di Stable Diffusion. Il codice di valutazione è disponibile all'indirizzo: https://github.com/vinairesearch/swiftbrushv2.
English
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The evaluation code is available at: https://github.com/vinairesearch/swiftbrushv2.
PDF626November 16, 2024