自身の劣化版で拡散モデルを誘導する
Guiding a Diffusion Model with a Bad Version of Itself
June 4, 2024
著者: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI
要旨
画像生成拡散モデルにおける主要な関心軸は、画像品質、生成結果の多様性、そして与えられた条件(例えばクラスラベルやテキストプロンプト)との整合性です。広く使われているclassifier-free guidanceアプローチでは、無条件モデルを用いて条件付きモデルをガイドすることで、プロンプトとの整合性と画像品質の同時向上を実現しますが、その代償として多様性が減少します。これらの効果は本質的に絡み合っており、制御が難しいように見えます。私たちは驚くべき観察を行いました。無条件モデルではなく、より小さく訓練の浅いモデル自体を用いて生成をガイドすることで、多様性を損なうことなく画像品質を分離して制御できることがわかったのです。この手法により、ImageNet生成において大幅な改善が見られ、公開されているネットワークを用いて64x64でFID 1.01、512x512でFID 1.25という記録的な数値を達成しました。さらに、この方法は無条件拡散モデルにも適用可能で、その品質を劇的に向上させることができます。
English
The primary axes of interest in image-generating diffusion models are image
quality, the amount of variation in the results, and how well the results align
with a given condition, e.g., a class label or a text prompt. The popular
classifier-free guidance approach uses an unconditional model to guide a
conditional model, leading to simultaneously better prompt alignment and
higher-quality images at the cost of reduced variation. These effects seem
inherently entangled, and thus hard to control. We make the surprising
observation that it is possible to obtain disentangled control over image
quality without compromising the amount of variation by guiding generation
using a smaller, less-trained version of the model itself rather than an
unconditional model. This leads to significant improvements in ImageNet
generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using
publicly available networks. Furthermore, the method is also applicable to
unconditional diffusion models, drastically improving their quality.Summary
AI-Generated Summary