Localizando e Editando Conhecimento em Modelos Gerativos de Texto para Imagem
Localizing and Editing Knowledge in Text-to-Image Generative Models
October 20, 2023
Autores: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha
cs.AI
Resumo
Modelos de Difusão Texto-para-Imagem, como Stable-Diffusion e Imagen, alcançaram uma qualidade de fotorealismo sem precedentes com pontuações FID de última geração no MS-COCO e outros benchmarks de geração. Dada uma legenda, a geração de imagens requer conhecimento detalhado sobre atributos como estrutura de objetos, estilo e ponto de vista, entre outros. Onde essa informação reside nos modelos generativos texto-para-imagem? Em nosso artigo, abordamos essa questão e entendemos como o conhecimento correspondente a atributos visuais distintos é armazenado em modelos de difusão texto-para-imagem em larga escala. Adaptamos a Análise de Mediação Causal para modelos texto-para-imagem e rastreamos o conhecimento sobre atributos visuais distintos para vários componentes (causais) no (i) UNet e (ii) codificador de texto do modelo de difusão. Em particular, mostramos que, ao contrário dos modelos generativos de linguagem de grande escala, o conhecimento sobre diferentes atributos não está localizado em componentes isolados, mas sim distribuído entre um conjunto de componentes no UNet condicional. Esses conjuntos de componentes são frequentemente distintos para diferentes atributos visuais. Notavelmente, descobrimos que o codificador de texto CLIP em modelos texto-para-imagem públicos, como o Stable-Diffusion, contém apenas um estado causal entre diferentes atributos visuais, e este é o primeiro layer de auto-atenção correspondente ao último token do sujeito do atributo na legenda. Isso contrasta fortemente com os estados causais em outros modelos de linguagem, que frequentemente são as camadas MLP intermediárias. Com base nessa observação de apenas um estado causal no codificador de texto, introduzimos um método rápido e sem dados de edição de modelo, o Diff-QuickFix, que pode editar efetivamente conceitos em modelos texto-para-imagem. O DiffQuickFix pode editar (ablar) conceitos em menos de um segundo com uma atualização de forma fechada, proporcionando um ganho de velocidade significativo de 1000x e desempenho de edição comparável aos métodos de edição baseados em ajuste fino existentes.
English
Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.