Interpretazione dello Spazio dei Pesi nei Modelli di Diffusione Personalizzati
Interpreting the Weight Space of Customized Diffusion Models
June 13, 2024
Autori: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI
Abstract
Investighiamo lo spazio dei pesi generato da una vasta collezione di modelli di diffusione personalizzati. Popoliamo questo spazio creando un dataset di oltre 60.000 modelli, ciascuno dei quali è un modello di base fine-tuned per inserire l'identità visiva di una persona diversa. Modelliamo la varietà sottostante di questi pesi come un sottospazio, che chiamiamo weights2weights. Dimostriamo tre applicazioni immediate di questo spazio: campionamento, modifica e inversione. Innanzitutto, poiché ogni punto nello spazio corrisponde a un'identità, campionare un insieme di pesi da esso produce un modello che codifica una nuova identità. Successivamente, troviamo direzioni lineari in questo spazio corrispondenti a modifiche semantiche dell'identità (ad esempio, aggiungere una barba). Queste modifiche persistono nell'aspetto attraverso i campioni generati. Infine, mostriamo che invertire una singola immagine in questo spazio ricostruisce un'identità realistica, anche se l'immagine di input è fuori distribuzione (ad esempio, un dipinto). I nostri risultati indicano che lo spazio dei pesi dei modelli di diffusione fine-tuned si comporta come uno spazio latente interpretabile delle identità.
English
We investigate the space of weights spanned by a large collection of
customized diffusion models. We populate this space by creating a dataset of
over 60,000 models, each of which is a base model fine-tuned to insert a
different person's visual identity. We model the underlying manifold of these
weights as a subspace, which we term weights2weights. We demonstrate three
immediate applications of this space -- sampling, editing, and inversion.
First, as each point in the space corresponds to an identity, sampling a set of
weights from it results in a model encoding a novel identity. Next, we find
linear directions in this space corresponding to semantic edits of the identity
(e.g., adding a beard). These edits persist in appearance across generated
samples. Finally, we show that inverting a single image into this space
reconstructs a realistic identity, even if the input image is out of
distribution (e.g., a painting). Our results indicate that the weight space of
fine-tuned diffusion models behaves as an interpretable latent space of
identities.