ChatPaper.aiChatPaper

SwiftBrush v2: Сделайте вашу модель одношагового диффузионного обучения лучше, чем у ее учителя.

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

August 26, 2024
Авторы: Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran
cs.AI

Аннотация

В данной статье мы стремимся улучшить производительность SwiftBrush, ведущей модели диффузии текста в изображение за один шаг, чтобы она была конкурентоспособной по сравнению с многошаговым аналогом Stable Diffusion. Сначала мы исследуем компромисс между качеством и разнообразием между SwiftBrush и SD Turbo: первая выделяется разнообразием изображений, в то время как вторая - качеством изображений. Это наблюдение мотивирует предложенные нами модификации в методологии обучения, включая более эффективную инициализацию весов и эффективное обучение с использованием LoRA. Более того, наше внедрение новой зажатой CLIP-потери улучшает выравнивание изображений и текста и приводит к улучшению качества изображений. Заметно, что путем объединения весов моделей, обученных с использованием эффективного LoRA и полного обучения, мы достигаем новой передовой модели диффузии за один шаг, достигая значения FID 8,14 и превосходя все модели на основе GAN и многошаговые модели Stable Diffusion. Код для оценки доступен по ссылке: https://github.com/vinairesearch/swiftbrushv2.
English
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The evaluation code is available at: https://github.com/vinairesearch/swiftbrushv2.

Summary

AI-Generated Summary

PDF636November 16, 2024