Interprétation de l'espace des poids dans les modèles de diffusion personnalisés
Interpreting the Weight Space of Customized Diffusion Models
June 13, 2024
Auteurs: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI
Résumé
Nous explorons l'espace des poids engendré par une vaste collection de modèles de diffusion personnalisés. Nous peuplons cet espace en créant un ensemble de données de plus de 60 000 modèles, chacun étant un modèle de base affiné pour intégrer l'identité visuelle d'une personne différente. Nous modélisons la variété sous-jacente de ces poids comme un sous-espace, que nous nommons weights2weights. Nous démontrons trois applications immédiates de cet espace : l'échantillonnage, l'édition et l'inversion. Premièrement, chaque point de l'espace correspondant à une identité, l'échantillonnage d'un ensemble de poids à partir de celui-ci produit un modèle encodant une identité nouvelle. Ensuite, nous identifions des directions linéaires dans cet espace correspondant à des modifications sémantiques de l'identité (par exemple, ajouter une barbe). Ces modifications persistent dans l'apparence des échantillons générés. Enfin, nous montrons qu'inverser une seule image dans cet espace reconstruit une identité réaliste, même si l'image d'entrée est hors distribution (par exemple, une peinture). Nos résultats indiquent que l'espace des poids des modèles de diffusion affinés se comporte comme un espace latent interprétable des identités.
English
We investigate the space of weights spanned by a large collection of
customized diffusion models. We populate this space by creating a dataset of
over 60,000 models, each of which is a base model fine-tuned to insert a
different person's visual identity. We model the underlying manifold of these
weights as a subspace, which we term weights2weights. We demonstrate three
immediate applications of this space -- sampling, editing, and inversion.
First, as each point in the space corresponds to an identity, sampling a set of
weights from it results in a model encoding a novel identity. Next, we find
linear directions in this space corresponding to semantic edits of the identity
(e.g., adding a beard). These edits persist in appearance across generated
samples. Finally, we show that inverting a single image into this space
reconstructs a realistic identity, even if the input image is out of
distribution (e.g., a painting). Our results indicate that the weight space of
fine-tuned diffusion models behaves as an interpretable latent space of
identities.