SNOOPI: 適切なガイダンスを備えたスーパーチャージドワンステップ拡散蒸留
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
December 3, 2024
著者: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI
要旨
最近のアプローチでは、複数ステップのテキストから画像への拡散モデルを1ステップに蒸留することで、有望な結果が得られています。最先端の効率的な蒸留手法であるSwiftBrushv2(SBv2)は、限られたリソースでさえ教師モデルの性能を上回っています。しかし、私たちの研究では、Variational Score Distillation(VSD)損失内で固定されたガイダンススケールを使用することにより、異なる拡散モデルのバックボーンを処理する際の不安定さが明らかになりました。既存の1ステップ拡散モデルの別の弱点は、実用的な画像生成において重要な負のプロンプトガイダンスのサポートが欠如していることです。本論文では、これらの制限に対処するために設計された新しいフレームワークであるSNOOPIを提案します。SNOOPIは、トレーニングと推論の両方で1ステップ拡散モデルのガイダンスを強化することによって、ガイダンスを向上させます。まず、Proper Guidance-SwiftBrush(PG-SB)を介してトレーニングの安定性を効果的に向上させます。PG-SBはランダムスケールのクラシファイアフリーガイダンスアプローチを採用しています。教師モデルのガイダンススケールを変化させることで、出力分布を広げ、より堅牢なVSD損失を実現し、SBが競合力のあるパフォーマンスを維持しながら、異なるバックボーン間で効果的に機能するようにします。次に、Negative-Away Steer Attention(NASA)と呼ばれるトレーニングフリーメソッドを提案します。NASAは、負のプロンプトをクロスアテンションを介して1ステップ拡散モデルに統合し、生成された画像の望ましくない要素を抑制します。実験結果は、提案された手法がさまざまなメトリクスでベースラインモデルを大幅に改善することを示しています。特筆すべきことに、1ステップ拡散モデルの新たな最先端ベンチマークを設定し、HPSv2スコアを31.08に達成しました。
English
Recent approaches have yielded promising results in distilling multi-step
text-to-image diffusion models into one-step ones. The state-of-the-art
efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the
teacher model's performance with limited resources. However, our study reveals
its instability when handling different diffusion model backbones due to using
a fixed guidance scale within the Variational Score Distillation (VSD) loss.
Another weakness of the existing one-step diffusion models is the missing
support for negative prompt guidance, which is crucial in practical image
generation. This paper presents SNOOPI, a novel framework designed to address
these limitations by enhancing the guidance in one-step diffusion models during
both training and inference. First, we effectively enhance training stability
through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale
classifier-free guidance approach. By varying the guidance scale of both
teacher models, we broaden their output distributions, resulting in a more
robust VSD loss that enables SB to perform effectively across diverse backbones
while maintaining competitive performance. Second, we propose a training-free
method called Negative-Away Steer Attention (NASA), which integrates negative
prompts into one-step diffusion models via cross-attention to suppress
undesired elements in generated images. Our experimental results show that our
proposed methods significantly improve baseline models across various metrics.
Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art
benchmark for one-step diffusion models.Summary
AI-Generated Summary