ChatPaper.aiChatPaper

Interprétation de l'espace des poids dans les modèles de diffusion personnalisés

Interpreting the Weight Space of Customized Diffusion Models

June 13, 2024
Auteurs: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI

Résumé

Nous explorons l'espace des poids engendré par une vaste collection de modèles de diffusion personnalisés. Nous peuplons cet espace en créant un ensemble de données de plus de 60 000 modèles, chacun étant un modèle de base affiné pour intégrer l'identité visuelle d'une personne différente. Nous modélisons la variété sous-jacente de ces poids comme un sous-espace, que nous nommons weights2weights. Nous démontrons trois applications immédiates de cet espace : l'échantillonnage, l'édition et l'inversion. Premièrement, chaque point de l'espace correspondant à une identité, l'échantillonnage d'un ensemble de poids à partir de celui-ci produit un modèle encodant une identité nouvelle. Ensuite, nous identifions des directions linéaires dans cet espace correspondant à des modifications sémantiques de l'identité (par exemple, ajouter une barbe). Ces modifications persistent dans l'apparence des échantillons générés. Enfin, nous montrons qu'inverser une seule image dans cet espace reconstruit une identité réaliste, même si l'image d'entrée est hors distribution (par exemple, une peinture). Nos résultats indiquent que l'espace des poids des modèles de diffusion affinés se comporte comme un espace latent interprétable des identités.
English
We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.
PDF201December 6, 2024