SwiftBrush v2: Сделайте вашу модель одношагового диффузионного обучения лучше, чем у ее учителя.SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its
Teacher
В данной статье мы стремимся улучшить производительность SwiftBrush, ведущей модели диффузии текста в изображение за один шаг, чтобы она была конкурентоспособной по сравнению с многошаговым аналогом Stable Diffusion. Сначала мы исследуем компромисс между качеством и разнообразием между SwiftBrush и SD Turbo: первая выделяется разнообразием изображений, в то время как вторая - качеством изображений. Это наблюдение мотивирует предложенные нами модификации в методологии обучения, включая более эффективную инициализацию весов и эффективное обучение с использованием LoRA. Более того, наше внедрение новой зажатой CLIP-потери улучшает выравнивание изображений и текста и приводит к улучшению качества изображений. Заметно, что путем объединения весов моделей, обученных с использованием эффективного LoRA и полного обучения, мы достигаем новой передовой модели диффузии за один шаг, достигая значения FID 8,14 и превосходя все модели на основе GAN и многошаговые модели Stable Diffusion. Код для оценки доступен по ссылке: https://github.com/vinairesearch/swiftbrushv2.