SNOOPI: Сверхзаряженная одношаговая диффузионная дистилляция с правильным руководством
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
December 3, 2024
Авторы: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI
Аннотация
Недавние подходы показали многообещающие результаты в упрощении многошаговых моделей диффузии текста в изображение до одношаговых. Современная эффективная техника упрощения, т.е. SwiftBrushv2 (SBv2), даже превосходит производительность учителя с ограниченными ресурсами. Однако наше исследование показывает нестабильность при работе с различными основами моделей диффузии из-за использования фиксированной шкалы руководства в рамках потерь вариационного счета дистилляции (VSD). Еще одним недостатком существующих одношаговых моделей диффузии является отсутствие поддержки отрицательного руководства, что критично для практической генерации изображений. В данной статье представлена SNOOPI, новая структура, разработанная для преодоления этих ограничений путем улучшения руководства в одношаговых моделях диффузии как во время обучения, так и во время вывода. Во-первых, мы эффективно улучшаем стабильность обучения через Proper Guidance-SwiftBrush (PG-SB), который использует подход к руководству без классификатора с произвольной шкалой. Изменяя шкалу руководства обеих моделей учителя, мы расширяем их распределения выходов, что приводит к более надежным потерям VSD, позволяющим SB эффективно работать с различными основами, сохраняя конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Negative-Away Steer Attention (NASA), который интегрирует отрицательные подсказки в одношаговые модели диффузии через кросс-внимание для подавления нежелательных элементов на созданных изображениях. Наши экспериментальные результаты показывают, что наши предложенные методы значительно улучшают базовые модели по различным метрикам. Замечательно, мы достигаем показателя HPSv2 в 31.08, устанавливая новый современный стандарт для одношаговых моделей диффузии.
English
Recent approaches have yielded promising results in distilling multi-step
text-to-image diffusion models into one-step ones. The state-of-the-art
efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the
teacher model's performance with limited resources. However, our study reveals
its instability when handling different diffusion model backbones due to using
a fixed guidance scale within the Variational Score Distillation (VSD) loss.
Another weakness of the existing one-step diffusion models is the missing
support for negative prompt guidance, which is crucial in practical image
generation. This paper presents SNOOPI, a novel framework designed to address
these limitations by enhancing the guidance in one-step diffusion models during
both training and inference. First, we effectively enhance training stability
through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale
classifier-free guidance approach. By varying the guidance scale of both
teacher models, we broaden their output distributions, resulting in a more
robust VSD loss that enables SB to perform effectively across diverse backbones
while maintaining competitive performance. Second, we propose a training-free
method called Negative-Away Steer Attention (NASA), which integrates negative
prompts into one-step diffusion models via cross-attention to suppress
undesired elements in generated images. Our experimental results show that our
proposed methods significantly improve baseline models across various metrics.
Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art
benchmark for one-step diffusion models.Summary
AI-Generated Summary