Het interpreteren van de gewichtsruimte van aangepaste diffusiemodellen

Samenvatting

We onderzoeken de ruimte van gewichten die wordt overspannen door een grote verzameling aangepaste diffusiemodellen. We vullen deze ruimte door een dataset te creëren van meer dan 60.000 modellen, waarbij elk model een basis model is dat is verfijnd om de visuele identiteit van een andere persoon in te voegen. We modelleren de onderliggende variëteit van deze gewichten als een deelruimte, die we weights2weights noemen. We demonstreren drie directe toepassingen van deze ruimte — bemonstering, bewerking en inversie. Ten eerste, omdat elk punt in de ruimte overeenkomt met een identiteit, resulteert het bemonsteren van een set gewichten hieruit in een model dat een nieuwe identiteit codeert. Vervolgens vinden we lineaire richtingen in deze ruimte die overeenkomen met semantische bewerkingen van de identiteit (bijvoorbeeld het toevoegen van een baard). Deze bewerkingen blijven consistent in uiterlijk over gegenereerde samples. Tot slot laten we zien dat het inverteren van een enkele afbeelding in deze ruimte een realistische identiteit reconstrueert, zelfs als de invoerafbeelding buiten de distributie valt (bijvoorbeeld een schilderij). Onze resultaten geven aan dat de gewichtsruimte van verfijnde diffusiemodellen zich gedraagt als een interpreteerbare latente ruimte van identiteiten.

English

We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.

Het interpreteren van de gewichtsruimte van aangepaste diffusiemodellen

Interpreting the Weight Space of Customized Diffusion Models

Samenvatting

Support