拡散モデルの隠された言語
The Hidden Language of Diffusion Models
June 1, 2023
著者: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
cs.AI
要旨
テキストから画像を生成する拡散モデルは、テキストの概念(例:「医師」、「愛」)から高品質で多様な画像を生成する比類のない能力を実証してきました。しかし、テキストを豊かな視覚的表現にマッピングする内部プロセスは、依然として謎に包まれています。本研究では、テキストから画像を生成するモデルにおける概念表現を理解するという課題に取り組み、入力テキストプロンプトを少数の解釈可能な要素に分解します。これは、モデルの語彙から得られたトークンの疎な重み付き組み合わせである擬似トークンを学習し、与えられた概念に対して生成された画像を再構築することを目的としています。最先端のStable Diffusionモデルに適用した結果、この分解により、概念の表現において非自明で驚くべき構造が明らかになりました。例えば、「大統領」や「作曲家」といった概念は、特定のインスタンス(例:「オバマ」、「バイデン」)とその補間によって支配されていることがわかりました。また、「幸福」のような概念は、具体的な関連用語(「家族」、「笑い」)や抽象的な関連用語(「友情」、「感情」)を組み合わせています。Stable Diffusionの内部動作を覗き見ることに加えて、本手法は、単一画像のトークンへの分解、バイアスの検出と緩和、意味的な画像操作などの応用も可能にします。私たちのコードは、https://hila-chefer.github.io/Conceptor/ で公開されます。
English
Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual concept (e.g., "a doctor",
"love"). However, the internal process of mapping text to a rich visual
representation remains an enigma. In this work, we tackle the challenge of
understanding concept representations in text-to-image models by decomposing an
input text prompt into a small set of interpretable elements. This is achieved
by learning a pseudo-token that is a sparse weighted combination of tokens from
the model's vocabulary, with the objective of reconstructing the images
generated for the given concept. Applied over the state-of-the-art Stable
Diffusion model, this decomposition reveals non-trivial and surprising
structures in the representations of concepts. For example, we find that some
concepts such as "a president" or "a composer" are dominated by specific
instances (e.g., "Obama", "Biden") and their interpolations. Other concepts,
such as "happiness" combine associated terms that can be concrete ("family",
"laughter") or abstract ("friendship", "emotion"). In addition to peering into
the inner workings of Stable Diffusion, our method also enables applications
such as single-image decomposition to tokens, bias detection and mitigation,
and semantic image manipulation. Our code will be available at:
https://hila-chefer.github.io/Conceptor/