Interpretando o Espaço de Pesos de Modelos de Difusão Personalizados
Interpreting the Weight Space of Customized Diffusion Models
June 13, 2024
Autores: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI
Resumo
Investigamos o espaço de pesos abrangido por uma grande coleção de modelos de difusão personalizados. Populamos esse espaço criando um conjunto de dados com mais de 60.000 modelos, cada um dos quais é um modelo base ajustado para inserir a identidade visual de uma pessoa diferente. Modelamos a variedade subjacente desses pesos como um subespaço, que denominamos weights2weights. Demonstramos três aplicações imediatas desse espaço: amostragem, edição e inversão. Primeiro, como cada ponto no espaço corresponde a uma identidade, a amostragem de um conjunto de pesos dele resulta em um modelo que codifica uma identidade nova. Em seguida, encontramos direções lineares nesse espaço que correspondem a edições semânticas da identidade (por exemplo, adicionar uma barba). Essas edições persistem na aparência entre as amostras geradas. Por fim, mostramos que a inversão de uma única imagem nesse espaço reconstrói uma identidade realista, mesmo que a imagem de entrada esteja fora da distribuição (por exemplo, uma pintura). Nossos resultados indicam que o espaço de pesos de modelos de difusão ajustados se comporta como um espaço latente interpretável de identidades.
English
We investigate the space of weights spanned by a large collection of
customized diffusion models. We populate this space by creating a dataset of
over 60,000 models, each of which is a base model fine-tuned to insert a
different person's visual identity. We model the underlying manifold of these
weights as a subspace, which we term weights2weights. We demonstrate three
immediate applications of this space -- sampling, editing, and inversion.
First, as each point in the space corresponds to an identity, sampling a set of
weights from it results in a model encoding a novel identity. Next, we find
linear directions in this space corresponding to semantic edits of the identity
(e.g., adding a beard). These edits persist in appearance across generated
samples. Finally, we show that inverting a single image into this space
reconstructs a realistic identity, even if the input image is out of
distribution (e.g., a painting). Our results indicate that the weight space of
fine-tuned diffusion models behaves as an interpretable latent space of
identities.