Interpretación del Espacio de Pesos en Modelos de Difusión Personalizados
Interpreting the Weight Space of Customized Diffusion Models
June 13, 2024
Autores: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI
Resumen
Investigamos el espacio de pesos abarcado por una amplia colección de modelos de difusión personalizados. Poblamos este espacio creando un conjunto de datos de más de 60,000 modelos, cada uno de los cuales es un modelo base ajustado para incorporar la identidad visual de una persona diferente. Modelamos la variedad subyacente de estos pesos como un subespacio, al que denominamos weights2weights. Demostramos tres aplicaciones inmediatas de este espacio: muestreo, edición e inversión. Primero, dado que cada punto en el espacio corresponde a una identidad, muestrear un conjunto de pesos de él resulta en un modelo que codifica una identidad novedosa. Luego, encontramos direcciones lineales en este espacio que corresponden a ediciones semánticas de la identidad (por ejemplo, agregar una barba). Estas ediciones persisten en la apariencia a través de las muestras generadas. Finalmente, mostramos que invertir una sola imagen en este espacio reconstruye una identidad realista, incluso si la imagen de entrada está fuera de distribución (por ejemplo, una pintura). Nuestros resultados indican que el espacio de pesos de los modelos de difusión ajustados se comporta como un espacio latente interpretable de identidades.
English
We investigate the space of weights spanned by a large collection of
customized diffusion models. We populate this space by creating a dataset of
over 60,000 models, each of which is a base model fine-tuned to insert a
different person's visual identity. We model the underlying manifold of these
weights as a subspace, which we term weights2weights. We demonstrate three
immediate applications of this space -- sampling, editing, and inversion.
First, as each point in the space corresponds to an identity, sampling a set of
weights from it results in a model encoding a novel identity. Next, we find
linear directions in this space corresponding to semantic edits of the identity
(e.g., adding a beard). These edits persist in appearance across generated
samples. Finally, we show that inverting a single image into this space
reconstructs a realistic identity, even if the input image is out of
distribution (e.g., a painting). Our results indicate that the weight space of
fine-tuned diffusion models behaves as an interpretable latent space of
identities.