Die verborgene Sprache von Diffusionsmodellen
The Hidden Language of Diffusion Models
June 1, 2023
Autoren: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle haben eine beispiellose Fähigkeit demonstriert, hochwertige und vielfältige Bilder aus einem textuellen Konzept (z. B. „ein Arzt“, „Liebe“) zu generieren. Der interne Prozess der Abbildung von Text auf eine reichhaltige visuelle Darstellung bleibt jedoch ein Rätsel. In dieser Arbeit gehen wir die Herausforderung an, Konzeptdarstellungen in Text-to-Image-Modellen zu verstehen, indem wir einen Eingabetext-Prompt in eine kleine Menge interpretierbarer Elemente zerlegen. Dies wird erreicht, indem ein Pseudo-Token gelernt wird, das eine spärlich gewichtete Kombination von Tokens aus dem Vokabular des Modells darstellt, mit dem Ziel, die für das gegebene Konzept generierten Bilder zu rekonstruieren. Angewendet auf das state-of-the-art Stable-Diffusion-Modell zeigt diese Zerlegung nicht-triviale und überraschende Strukturen in den Darstellungen von Konzepten. Beispielsweise stellen wir fest, dass einige Konzepte wie „ein Präsident“ oder „ein Komponist“ von spezifischen Instanzen (z. B. „Obama“, „Biden“) und deren Interpolationen dominiert werden. Andere Konzepte wie „Glück“ kombinieren assoziierte Begriffe, die konkret („Familie“, „Lachen“) oder abstrakt („Freundschaft“, „Emotion“) sein können. Neben dem Einblick in die inneren Abläufe von Stable Diffusion ermöglicht unsere Methode auch Anwendungen wie die Zerlegung einzelner Bilder in Tokens, die Erkennung und Minderung von Verzerrungen sowie die semantische Bildmanipulation. Unser Code wird unter folgender Adresse verfügbar sein: https://hila-chefer.github.io/Conceptor/
English
Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual concept (e.g., "a doctor",
"love"). However, the internal process of mapping text to a rich visual
representation remains an enigma. In this work, we tackle the challenge of
understanding concept representations in text-to-image models by decomposing an
input text prompt into a small set of interpretable elements. This is achieved
by learning a pseudo-token that is a sparse weighted combination of tokens from
the model's vocabulary, with the objective of reconstructing the images
generated for the given concept. Applied over the state-of-the-art Stable
Diffusion model, this decomposition reveals non-trivial and surprising
structures in the representations of concepts. For example, we find that some
concepts such as "a president" or "a composer" are dominated by specific
instances (e.g., "Obama", "Biden") and their interpolations. Other concepts,
such as "happiness" combine associated terms that can be concrete ("family",
"laughter") or abstract ("friendship", "emotion"). In addition to peering into
the inner workings of Stable Diffusion, our method also enables applications
such as single-image decomposition to tokens, bias detection and mitigation,
and semantic image manipulation. Our code will be available at:
https://hila-chefer.github.io/Conceptor/