Lokaliseren en bewerken van kennis in tekst-naar-beeld generatieve modellen
Localizing and Editing Knowledge in Text-to-Image Generative Models
October 20, 2023
Auteurs: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha
cs.AI
Samenvatting
Text-to-Image Diffusion Models zoals Stable-Diffusion en Imagen hebben een ongekende kwaliteit van fotorealisme bereikt met state-of-the-art FID-scores op MS-COCO en andere generatiebenchmarks. Bij het genereren van een afbeelding op basis van een beschrijving is gedetailleerde kennis vereist over attributen zoals objectstructuur, stijl en gezichtspunt, onder andere. Waar bevindt deze informatie zich in text-to-image generatieve modellen? In ons artikel gaan we deze vraag te lijf en onderzoeken we hoe kennis die correspondeert met verschillende visuele attributen is opgeslagen in grootschalige text-to-image diffusiemodellen. We passen Causal Mediation Analysis aan voor text-to-image modellen en traceren kennis over verschillende visuele attributen naar diverse (causale) componenten in (i) de UNet en (ii) de tekst-encoder van het diffusiemodel. In het bijzonder laten we zien dat, in tegenstelling tot generatieve large-language modellen, kennis over verschillende attributen niet gelokaliseerd is in geïsoleerde componenten, maar verspreid is over een reeks componenten in de conditionele UNet. Deze reeksen componenten zijn vaak verschillend voor verschillende visuele attributen. Opmerkelijk is dat we ontdekken dat de CLIP tekst-encoder in publieke text-to-image modellen zoals Stable-Diffusion slechts één causale toestand bevat voor verschillende visuele attributen, en dit is de eerste self-attention laag die correspondeert met het laatste onderwerpstoken van het attribuut in de beschrijving. Dit staat in schril contrast met de causale toestanden in andere taalmodellen, die vaak de mid-MLP lagen zijn. Op basis van deze observatie van slechts één causale toestand in de tekst-encoder, introduceren we een snelle, data-vrije modelbewerkingsmethode genaamd Diff-QuickFix, die effectief concepten in text-to-image modellen kan bewerken. DiffQuickFix kan concepten in minder dan een seconde bewerken (ablateren) met een gesloten-formulier update, wat een aanzienlijke 1000x versnelling biedt en vergelijkbare bewerkingsprestaties levert als bestaande fine-tuning gebaseerde bewerkingsmethoden.
English
Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.