ChatPaper.aiChatPaper

Distillation de Score Répulsif pour un Échantillonnage Diversifié des Modèles de Diffusion

Repulsive Score Distillation for Diverse Sampling of Diffusion Models

June 24, 2024
Auteurs: Nicolas Zilberstein, Morteza Mardani, Santiago Segarra
cs.AI

Résumé

L'échantillonnage par distillation de scores a joué un rôle central dans l'intégration des modèles de diffusion pour la génération de visuels complexes. Malgré des résultats impressionnants, il souffre d'un effondrement des modes et d'un manque de diversité. Pour relever ce défi, nous exploitons l'interprétation par flux de gradient de la distillation de scores pour proposer la Distillation de Scores Répulsive (RSD). En particulier, nous proposons un cadre variationnel basé sur la répulsion d'un ensemble de particules qui favorise la diversité. En utilisant une approximation variationnelle qui intègre un couplage entre les particules, la répulsion apparaît comme une simple régularisation permettant l'interaction des particules en fonction de leur similarité relative par paires, mesurée par exemple via des noyaux à base radiale. Nous concevons RSD pour des scénarios d'échantillonnage à la fois non contraints et contraints. Pour l'échantillonnage contraint, nous nous concentrons sur les problèmes inverses dans l'espace latent, ce qui conduit à une formulation variationnelle augmentée, offrant un bon équilibre entre calcul, qualité et diversité. Nos expériences approfondies sur la génération texte-image et les problèmes inverses démontrent que RSD atteint un compromis supérieur entre diversité et qualité par rapport aux alternatives de pointe.
English
Score distillation sampling has been pivotal for integrating diffusion models into generation of complex visuals. Despite impressive results it suffers from mode collapse and lack of diversity. To cope with this challenge, we leverage the gradient flow interpretation of score distillation to propose Repulsive Score Distillation (RSD). In particular, we propose a variational framework based on repulsion of an ensemble of particles that promotes diversity. Using a variational approximation that incorporates a coupling among particles, the repulsion appears as a simple regularization that allows interaction of particles based on their relative pairwise similarity, measured e.g., via radial basis kernels. We design RSD for both unconstrained and constrained sampling scenarios. For constrained sampling we focus on inverse problems in the latent space that leads to an augmented variational formulation, that strikes a good balance between compute, quality and diversity. Our extensive experiments for text-to-image generation, and inverse problems demonstrate that RSD achieves a superior trade-off between diversity and quality compared with state-of-the-art alternatives.

Summary

AI-Generated Summary

PDF42November 29, 2024