Abstoßungswert-Destillation zur vielfältigen Stichprobenahme von Diffusionsmodellen
Repulsive Score Distillation for Diverse Sampling of Diffusion Models
June 24, 2024
Autoren: Nicolas Zilberstein, Morteza Mardani, Santiago Segarra
cs.AI
Zusammenfassung
Die Score-Distillation durch Abtastung war entscheidend für die Integration von Diffusionsmodellen in die Generierung komplexer visueller Inhalte. Trotz beeindruckender Ergebnisse leidet sie unter Modus-Kollaps und Mangel an Diversität. Um diese Herausforderung zu bewältigen, nutzen wir die Gradientenfluss-Interpretation der Score-Distillation, um die Abstoßende Score-Distillation (RSD) vorzuschlagen. Insbesondere schlagen wir ein variationsbasiertes Framework vor, das auf der Abstoßung eines Ensembles von Partikeln basiert, um Diversität zu fördern. Unter Verwendung einer variationsbasierten Approximation, die eine Kopplung zwischen Partikeln beinhaltet, erscheint die Abstoßung als einfache Regularisierung, die eine Interaktion der Partikel basierend auf ihrer relativen paarweisen Ähnlichkeit ermöglicht, gemessen z.B. über radiale Basis-Kernel. Wir entwerfen RSD für sowohl unbeschränkte als auch beschränkte Abtastszenarien. Für beschränkte Abtastung konzentrieren wir uns auf inverse Probleme im latenten Raum, die zu einer erweiterten variationsbasierten Formulierung führen, die ein gutes Gleichgewicht zwischen Rechenleistung, Qualität und Diversität schafft. Unsere umfangreichen Experimente zur Text-zu-Bild-Generierung und inversen Problemen zeigen, dass RSD einen überlegenen Kompromiss zwischen Diversität und Qualität im Vergleich zu modernsten Alternativen erreicht.
English
Score distillation sampling has been pivotal for integrating diffusion models
into generation of complex visuals. Despite impressive results it suffers from
mode collapse and lack of diversity. To cope with this challenge, we leverage
the gradient flow interpretation of score distillation to propose Repulsive
Score Distillation (RSD). In particular, we propose a variational framework
based on repulsion of an ensemble of particles that promotes diversity. Using a
variational approximation that incorporates a coupling among particles, the
repulsion appears as a simple regularization that allows interaction of
particles based on their relative pairwise similarity, measured e.g., via
radial basis kernels. We design RSD for both unconstrained and constrained
sampling scenarios. For constrained sampling we focus on inverse problems in
the latent space that leads to an augmented variational formulation, that
strikes a good balance between compute, quality and diversity. Our extensive
experiments for text-to-image generation, and inverse problems demonstrate that
RSD achieves a superior trade-off between diversity and quality compared with
state-of-the-art alternatives.Summary
AI-Generated Summary