カスタマイズされた拡散モデルの重み空間の解釈
Interpreting the Weight Space of Customized Diffusion Models
June 13, 2024
著者: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
cs.AI
要旨
大規模なカスタマイズされた拡散モデルの集合が張る重み空間を調査します。この空間を、異なる人物の視覚的アイデンティティを挿入するためにファインチューニングされた6万以上のモデルからなるデータセットで構築します。これらの重みの基盤となる多様体を部分空間としてモデル化し、これをweights2weightsと呼びます。この空間の即時的な応用として、サンプリング、編集、反転の3つを実証します。まず、空間内の各点がアイデンティティに対応するため、そこから重みをサンプリングすることで新たなアイデンティティをエンコードしたモデルが得られます。次に、この空間内の線形方向がアイデンティティの意味的編集(例:ひげを追加する)に対応することを発見します。これらの編集は生成されたサンプル間で外観が持続します。最後に、単一の画像をこの空間に反転させることで、入力画像が分布外(例:絵画)であっても現実的なアイデンティティを再構築できることを示します。我々の結果は、ファインチューニングされた拡散モデルの重み空間が、解釈可能なアイデンティティの潜在空間として振る舞うことを示唆しています。
English
We investigate the space of weights spanned by a large collection of
customized diffusion models. We populate this space by creating a dataset of
over 60,000 models, each of which is a base model fine-tuned to insert a
different person's visual identity. We model the underlying manifold of these
weights as a subspace, which we term weights2weights. We demonstrate three
immediate applications of this space -- sampling, editing, and inversion.
First, as each point in the space corresponds to an identity, sampling a set of
weights from it results in a model encoding a novel identity. Next, we find
linear directions in this space corresponding to semantic edits of the identity
(e.g., adding a beard). These edits persist in appearance across generated
samples. Finally, we show that inverting a single image into this space
reconstructs a realistic identity, even if the input image is out of
distribution (e.g., a painting). Our results indicate that the weight space of
fine-tuned diffusion models behaves as an interpretable latent space of
identities.Summary
AI-Generated Summary