Het interpreteren van de gewichtsruimte van aangepaste diffusiemodellen
Interpreting the Weight Space of Customized Diffusion Models
June 13, 2024
Auteurs: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI
Samenvatting
We onderzoeken de ruimte van gewichten die wordt overspannen door een grote verzameling aangepaste diffusiemodellen. We vullen deze ruimte door een dataset te creëren van meer dan 60.000 modellen, waarbij elk model een basis model is dat is verfijnd om de visuele identiteit van een andere persoon in te voegen. We modelleren de onderliggende variëteit van deze gewichten als een deelruimte, die we weights2weights noemen. We demonstreren drie directe toepassingen van deze ruimte — bemonstering, bewerking en inversie. Ten eerste, omdat elk punt in de ruimte overeenkomt met een identiteit, resulteert het bemonsteren van een set gewichten hieruit in een model dat een nieuwe identiteit codeert. Vervolgens vinden we lineaire richtingen in deze ruimte die overeenkomen met semantische bewerkingen van de identiteit (bijvoorbeeld het toevoegen van een baard). Deze bewerkingen blijven consistent in uiterlijk over gegenereerde samples. Tot slot laten we zien dat het inverteren van een enkele afbeelding in deze ruimte een realistische identiteit reconstrueert, zelfs als de invoerafbeelding buiten de distributie valt (bijvoorbeeld een schilderij). Onze resultaten geven aan dat de gewichtsruimte van verfijnde diffusiemodellen zich gedraagt als een interpreteerbare latente ruimte van identiteiten.
English
We investigate the space of weights spanned by a large collection of
customized diffusion models. We populate this space by creating a dataset of
over 60,000 models, each of which is a base model fine-tuned to insert a
different person's visual identity. We model the underlying manifold of these
weights as a subspace, which we term weights2weights. We demonstrate three
immediate applications of this space -- sampling, editing, and inversion.
First, as each point in the space corresponds to an identity, sampling a set of
weights from it results in a model encoding a novel identity. Next, we find
linear directions in this space corresponding to semantic edits of the identity
(e.g., adding a beard). These edits persist in appearance across generated
samples. Finally, we show that inverting a single image into this space
reconstructs a realistic identity, even if the input image is out of
distribution (e.g., a painting). Our results indicate that the weight space of
fine-tuned diffusion models behaves as an interpretable latent space of
identities.