Локализация и редактирование знаний в генеративных моделях "текст-изображение"
Localizing and Editing Knowledge in Text-to-Image Generative Models
October 20, 2023
Авторы: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha
cs.AI
Аннотация
Модели генерации изображений из текста, такие как Stable-Diffusion и Imagen, достигли беспрецедентного уровня фотореализма с лучшими показателями FID на наборе данных MS-COCO и других бенчмарках генерации. Для создания изображения по текстовому описанию требуется детальное знание атрибутов, таких как структура объектов, стиль, точка зрения и другие. Где эта информация хранится в моделях генерации изображений из текста? В нашей работе мы исследуем этот вопрос и изучаем, как знания, соответствующие различным визуальным атрибутам, распределены в крупномасштабных диффузионных моделях генерации изображений из текста. Мы адаптируем метод анализа причинных связей (Causal Mediation Analysis) для таких моделей и отслеживаем знания о различных визуальных атрибутах в различных (причинных) компонентах (i) UNet и (ii) текстового энкодера диффузионной модели. В частности, мы показываем, что в отличие от генеративных языковых моделей, знания о различных атрибутах не локализованы в изолированных компонентах, а распределены среди множества компонентов в условном UNet. Эти наборы компонентов часто различаются для разных визуальных атрибутов. Примечательно, что мы обнаружили, что текстовый энкодер CLIP в публичных моделях генерации изображений из текста, таких как Stable-Diffusion, содержит только одно причинное состояние для различных визуальных атрибутов, и это первый слой self-attention, соответствующий последнему токену субъекта атрибута в описании. Это резко контрастирует с причинными состояниями в других языковых моделях, которые часто находятся в средних слоях MLP. На основе этого наблюдения о единственном причинном состоянии в текстовом энкодере мы представляем быстрый метод редактирования моделей без данных Diff-QuickFix, который может эффективно редактировать концепции в моделях генерации изображений из текста. DiffQuickFix может редактировать (удалять) концепции менее чем за секунду с помощью закрытого обновления, обеспечивая значительное ускорение в 1000 раз и сопоставимую производительность редактирования с существующими методами, основанными на тонкой настройке.
English
Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.