ChatPaper.aiChatPaper

Интерпретация Пространства Весов Индивидуальных Моделей Диффузии

Interpreting the Weight Space of Customized Diffusion Models

June 13, 2024
Авторы: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI

Аннотация

Мы исследуем пространство весов, охваченное большой коллекцией индивидуальных моделей диффузии. Мы заполняем это пространство, создавая набор данных из более чем 60 000 моделей, каждая из которых является базовой моделью, настроенной для вставки визуальной идентичности разных людей. Мы моделируем базовое многообразие этих весов как подпространство, которое мы называем весами2весами. Мы демонстрируем три немедленных применения этого пространства - выборку, редактирование и инверсию. Во-первых, поскольку каждая точка в пространстве соответствует идентичности, выбор набора весов из него приводит к модели, кодирующей новую идентичность. Затем мы находим линейные направления в этом пространстве, соответствующие семантическим изменениям идентичности (например, добавление бороды). Эти изменения сохраняются во внешнем виде в созданных образцах. Наконец, мы показываем, что инверсия одного изображения в это пространство восстанавливает реалистичную идентичность, даже если входное изображение не соответствует распределению (например, картина). Наши результаты показывают, что пространство весов настроенных моделей диффузии ведет себя как интерпретируемое латентное пространство идентичностей.
English
We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.
PDF201December 6, 2024