Localización y Edición de Conocimiento en Modelos Generativos de Texto a Imagen
Localizing and Editing Knowledge in Text-to-Image Generative Models
October 20, 2023
Autores: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha
cs.AI
Resumen
Los modelos de difusión de texto a imagen, como Stable-Diffusion e Imagen, han logrado una calidad fotorealista sin precedentes, alcanzando puntuaciones FID de vanguardia en MS-COCO y otros benchmarks de generación. Dada una descripción, la generación de imágenes requiere un conocimiento detallado sobre atributos como la estructura de los objetos, el estilo, el punto de vista, entre otros. ¿Dónde reside esta información en los modelos generativos de texto a imagen? En nuestro artículo, abordamos esta pregunta y entendemos cómo el conocimiento correspondiente a distintos atributos visuales se almacena en modelos de difusión de texto a imagen a gran escala. Adaptamos el Análisis de Mediación Causal para modelos de texto a imagen y rastreamos el conocimiento sobre distintos atributos visuales hasta varios componentes (causales) en (i) la UNet y (ii) el codificador de texto del modelo de difusión. En particular, demostramos que, a diferencia de los modelos generativos de lenguaje a gran escala, el conocimiento sobre diferentes atributos no está localizado en componentes aislados, sino que se distribuye entre un conjunto de componentes en la UNet condicional. Estos conjuntos de componentes suelen ser distintos para diferentes atributos visuales. Sorprendentemente, encontramos que el codificador de texto CLIP en modelos públicos de texto a imagen, como Stable-Diffusion, contiene solo un estado causal en diferentes atributos visuales, y este es la primera capa de autoatención correspondiente al último token del sujeto del atributo en la descripción. Esto contrasta marcadamente con los estados causales en otros modelos de lenguaje, que suelen ser las capas MLP intermedias. Basándonos en esta observación de solo un estado causal en el codificador de texto, introducimos un método rápido y sin datos para la edición de modelos, Diff-QuickFix, que puede editar conceptos en modelos de texto a imagen de manera efectiva. DiffQuickFix puede editar (ablacionar) conceptos en menos de un segundo con una actualización de forma cerrada, proporcionando una aceleración significativa de 1000x y un rendimiento de edición comparable a los métodos de edición basados en ajuste fino existentes.
English
Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.