Interpretación del Espacio de Pesos en Modelos de Difusión Personalizados

Resumen

Investigamos el espacio de pesos abarcado por una amplia colección de modelos de difusión personalizados. Poblamos este espacio creando un conjunto de datos de más de 60,000 modelos, cada uno de los cuales es un modelo base ajustado para incorporar la identidad visual de una persona diferente. Modelamos la variedad subyacente de estos pesos como un subespacio, al que denominamos weights2weights. Demostramos tres aplicaciones inmediatas de este espacio: muestreo, edición e inversión. Primero, dado que cada punto en el espacio corresponde a una identidad, muestrear un conjunto de pesos de él resulta en un modelo que codifica una identidad novedosa. Luego, encontramos direcciones lineales en este espacio que corresponden a ediciones semánticas de la identidad (por ejemplo, agregar una barba). Estas ediciones persisten en la apariencia a través de las muestras generadas. Finalmente, mostramos que invertir una sola imagen en este espacio reconstruye una identidad realista, incluso si la imagen de entrada está fuera de distribución (por ejemplo, una pintura). Nuestros resultados indican que el espacio de pesos de los modelos de difusión ajustados se comporta como un espacio latente interpretable de identidades.

English

We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.

Interpretación del Espacio de Pesos en Modelos de Difusión Personalizados

Interpreting the Weight Space of Customized Diffusion Models

Resumen

Support