Lokalisierung und Bearbeitung von Wissen in text-zu-bild-generativen Modellen
Localizing and Editing Knowledge in Text-to-Image Generative Models
October 20, 2023
Autoren: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle wie Stable-Diffusion und Imagen haben eine beispiellose Qualität der Fotorealismus mit state-of-the-art FID-Scores auf MS-COCO und anderen Generierungsbenchmarks erreicht. Bei der Bildgenerierung aus einer Bildunterschrift ist detailliertes Wissen über Attribute wie Objektstruktur, Stil und Blickwinkel erforderlich. Wo befindet sich diese Information in Text-to-Image-Generierungsmodellen? In unserem Artikel gehen wir dieser Frage nach und untersuchen, wie Wissen zu verschiedenen visuellen Attributen in großskaligen Text-to-Image-Diffusionsmodellen gespeichert ist. Wir passen die Kausale Mediationsanalyse für Text-to-Image-Modelle an und verfolgen Wissen über unterschiedliche visuelle Attribute zu verschiedenen (kausalen) Komponenten in (i) der UNet und (ii) dem Text-Encoder des Diffusionsmodells. Insbesondere zeigen wir, dass im Gegensatz zu generativen großen Sprachmodellen Wissen über verschiedene Attribute nicht in isolierten Komponenten lokalisiert ist, sondern stattdessen auf eine Reihe von Komponenten in der bedingten UNet verteilt ist. Diese Komponenten sind oft für verschiedene visuelle Attribute unterschiedlich. Bemerkenswerterweise stellen wir fest, dass der CLIP-Text-Encoder in öffentlichen Text-to-Image-Modellen wie Stable-Diffusion nur einen kausalen Zustand über verschiedene visuelle Attribute hinweg enthält, und dies ist die erste Self-Attention-Schicht, die dem letzten Subjekttoken des Attributs in der Bildunterschrift entspricht. Dies steht in starkem Kontrast zu den kausalen Zuständen in anderen Sprachmodellen, bei denen es sich oft um mittlere MLP-Schichten handelt. Basierend auf dieser Beobachtung von nur einem kausalen Zustand im Text-Encoder führen wir eine schnelle, datenfreie Methode zur Modellbearbeitung ein, Diff-QuickFix, die Konzepte in Text-to-Image-Modellen effektiv bearbeiten kann. Diff-QuickFix kann Konzepte in weniger als einer Sekunde mit einer geschlossenen Aktualisierung bearbeiten (ablieren) und bietet eine signifikante 1000-fache Beschleunigung bei vergleichbarer Bearbeitungsleistung zu bestehenden feinabstimmungsbasierten Bearbeitungsmethoden.
English
Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.