Localisation et édition des connaissances dans les modèles génératifs texte-image
Localizing and Editing Knowledge in Text-to-Image Generative Models
October 20, 2023
Auteurs: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha
cs.AI
Résumé
Les modèles de diffusion texte-image tels que Stable-Diffusion et Imagen ont atteint une qualité de photoréalisme sans précédent, avec des scores FID de pointe sur MS-COCO et d'autres benchmarks de génération. Étant donné une légende, la génération d'image nécessite une connaissance fine des attributs tels que la structure des objets, le style, le point de vue, entre autres. Où réside cette information dans les modèles génératifs texte-image ? Dans notre article, nous abordons cette question et cherchons à comprendre comment les connaissances correspondant à des attributs visuels distincts sont stockées dans les modèles de diffusion texte-image à grande échelle. Nous adaptons l'analyse de médiation causale pour les modèles texte-image et traçons les connaissances sur les attributs visuels distincts vers divers composants (causaux) dans (i) l'UNet et (ii) l'encodeur de texte du modèle de diffusion. En particulier, nous montrons que, contrairement aux modèles de langage génératifs à grande échelle, les connaissances sur différents attributs ne sont pas localisées dans des composants isolés, mais sont plutôt distribuées parmi un ensemble de composants dans l'UNet conditionnel. Ces ensembles de composants sont souvent distincts pour différents attributs visuels. De manière remarquable, nous constatons que l'encodeur de texte CLIP dans les modèles texte-image publics tels que Stable-Diffusion ne contient qu'un seul état causal pour différents attributs visuels, et il s'agit de la première couche d'auto-attention correspondant au dernier token du sujet de l'attribut dans la légende. Cela contraste fortement avec les états causaux dans d'autres modèles de langage, qui sont souvent les couches MLP intermédiaires. Sur la base de cette observation d'un seul état causal dans l'encodeur de texte, nous introduisons une méthode rapide et sans données d'édition de modèle, Diff-QuickFix, qui peut efficacement éditer des concepts dans les modèles texte-image. DiffQuickFix peut éditer (ablation) des concepts en moins d'une seconde avec une mise à jour en forme fermée, offrant une accélération significative de 1000x et des performances d'édition comparables aux méthodes d'édition basées sur le réglage fin existantes.
English
Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.