拡散モデルの多様なサンプリングのための反発的スコア蒸留
Repulsive Score Distillation for Diverse Sampling of Diffusion Models
June 24, 2024
著者: Nicolas Zilberstein, Morteza Mardani, Santiago Segarra
cs.AI
要旨
スコア蒸留サンプリングは、拡散モデルを複雑な視覚的生成に統合する上で重要な役割を果たしてきました。しかし、印象的な結果にもかかわらず、モード崩壊や多様性の欠如という課題を抱えています。この課題に対処するため、我々はスコア蒸留の勾配流解釈を活用し、反発的スコア蒸留(Repulsive Score Distillation, RSD)を提案します。特に、多様性を促進する粒子群の反発に基づく変分フレームワークを提案します。粒子間の結合を組み込んだ変分近似を用いることで、反発は単純な正則化として現れ、放射基底カーネルなどを介して測定される粒子間の相対的な類似性に基づいて粒子が相互作用することを可能にします。我々は、制約なしおよび制約ありのサンプリングシナリオの両方に対してRSDを設計しました。制約ありのサンプリングでは、潜在空間における逆問題に焦点を当て、計算、品質、多様性の間で良好なバランスを取る拡張変分定式化を導出します。テキストから画像への生成や逆問題に関する広範な実験を通じて、RSDが最先端の代替手法と比較して、多様性と品質の間で優れたトレードオフを達成することを実証しました。
English
Score distillation sampling has been pivotal for integrating diffusion models
into generation of complex visuals. Despite impressive results it suffers from
mode collapse and lack of diversity. To cope with this challenge, we leverage
the gradient flow interpretation of score distillation to propose Repulsive
Score Distillation (RSD). In particular, we propose a variational framework
based on repulsion of an ensemble of particles that promotes diversity. Using a
variational approximation that incorporates a coupling among particles, the
repulsion appears as a simple regularization that allows interaction of
particles based on their relative pairwise similarity, measured e.g., via
radial basis kernels. We design RSD for both unconstrained and constrained
sampling scenarios. For constrained sampling we focus on inverse problems in
the latent space that leads to an augmented variational formulation, that
strikes a good balance between compute, quality and diversity. Our extensive
experiments for text-to-image generation, and inverse problems demonstrate that
RSD achieves a superior trade-off between diversity and quality compared with
state-of-the-art alternatives.Summary
AI-Generated Summary