拡散モデルにおける高いガイダンススケールの過飽和とアーティファクトの除去
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
October 3, 2024
著者: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI
要旨
クラシファイアを使用しないガイダンス(CFG)は、拡散モデルにおいて生成品質と入力条件と最終出力の整合性の両方を向上させるために重要です。これらの側面を強化するには一般的に高いガイダンススケールが必要ですが、これは過飽和や非現実的なアーティファクトを引き起こすこともあります。本論文では、この問題に対処するためにCFGの更新ルールを再検討し、修正を導入します。まず、CFGにおける更新項を条件付きモデルの予測に対する平行成分と直交成分に分解し、平行成分が主に過飽和を引き起こす一方、直交成分が画像品質を向上させることを観察します。それに基づき、過飽和を回避しつつ高品質の生成を実現するために、平行成分の重み付けを軽減することを提案します。さらに、CFGと勾配上昇との関連性を明らかにし、この洞察に基づいてCFGの更新ルールのための新しい再スケーリングとモーメント法を導入します。本手法である適応的射影ガイダンス(APG)は、過飽和を引き起こすことなく高いガイダンススケールの使用を可能にしつつ、CFGの品質向上の利点を維持します。APGは実装が容易であり、サンプリングプロセスにほとんど追加の計算負荷を導入しません。豊富な実験を通じて、APGがさまざまな条件付き拡散モデルとサンプラーと互換性があり、FID、再現率、飽和スコアが向上し、CFGと同等の精度を維持しつつ、標準のクラシファイアを使用しないガイダンスに対する優れたプラグアンドプレイの代替手法であることを示します。
English
Classifier-free guidance (CFG) is crucial for improving both generation
quality and alignment between the input condition and final output in diffusion
models. While a high guidance scale is generally required to enhance these
aspects, it also causes oversaturation and unrealistic artifacts. In this
paper, we revisit the CFG update rule and introduce modifications to address
this issue. We first decompose the update term in CFG into parallel and
orthogonal components with respect to the conditional model prediction and
observe that the parallel component primarily causes oversaturation, while the
orthogonal component enhances image quality. Accordingly, we propose
down-weighting the parallel component to achieve high-quality generations
without oversaturation. Additionally, we draw a connection between CFG and
gradient ascent and introduce a new rescaling and momentum method for the CFG
update rule based on this insight. Our approach, termed adaptive projected
guidance (APG), retains the quality-boosting advantages of CFG while enabling
the use of higher guidance scales without oversaturation. APG is easy to
implement and introduces practically no additional computational overhead to
the sampling process. Through extensive experiments, we demonstrate that APG is
compatible with various conditional diffusion models and samplers, leading to
improved FID, recall, and saturation scores while maintaining precision
comparable to CFG, making our method a superior plug-and-play alternative to
standard classifier-free guidance.Summary
AI-Generated Summary