Localizzazione e Modifica della Conoscenza nei Modelli Generativi Testo-Immagine

Abstract

I modelli di diffusione Text-to-Image come Stable-Diffusion e Imagen hanno raggiunto una qualità fotorealistica senza precedenti, ottenendo punteggi FID all'avanguardia su MS-COCO e altri benchmark di generazione. Data una descrizione testuale, la generazione di immagini richiede una conoscenza dettagliata di attributi come la struttura degli oggetti, lo stile e il punto di vista, tra gli altri. Dove risiede questa informazione nei modelli generativi text-to-image? Nel nostro articolo, affrontiamo questa domanda e cerchiamo di comprendere come la conoscenza corrispondente a distinti attributi visivi sia memorizzata nei modelli di diffusione text-to-image su larga scala. Adattiamo l'Analisi di Mediazione Causale per i modelli text-to-image e tracciamo la conoscenza riguardante distinti attributi visivi verso vari componenti (causali) nel (i) UNet e (ii) nel text-encoder del modello di diffusione. In particolare, dimostriamo che, a differenza dei modelli generativi di linguaggio su larga scala, la conoscenza su diversi attributi non è localizzata in componenti isolati, ma è invece distribuita tra un insieme di componenti nel UNet condizionale. Questi insiemi di componenti sono spesso distinti per diversi attributi visivi. Sorprendentemente, scopriamo che il text-encoder CLIP nei modelli text-to-image pubblici come Stable-Diffusion contiene solo uno stato causale per diversi attributi visivi, e questo è il primo livello di self-attention corrispondente all'ultimo token del soggetto dell'attributo nella descrizione. Ciò è in netto contrasto con gli stati causali in altri modelli linguistici, che sono spesso i livelli MLP intermedi. Sulla base di questa osservazione di un solo stato causale nel text-encoder, introduciamo un metodo veloce e senza dati per la modifica del modello, Diff-QuickFix, che può modificare efficacemente i concetti nei modelli text-to-image. DiffQuickFix può modificare (ablare) concetti in meno di un secondo con un aggiornamento in forma chiusa, fornendo un significativo miglioramento di 1000x in velocità e prestazioni di modifica comparabili ai metodi di modifica basati su fine-tuning esistenti.

English

Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have achieved unprecedented quality of photorealism with state-of-the-art FID scores on MS-COCO and other generation benchmarks. Given a caption, image generation requires fine-grained knowledge about attributes such as object structure, style, and viewpoint amongst others. Where does this information reside in text-to-image generative models? In our paper, we tackle this question and understand how knowledge corresponding to distinct visual attributes is stored in large-scale text-to-image diffusion models. We adapt Causal Mediation Analysis for text-to-image models and trace knowledge about distinct visual attributes to various (causal) components in the (i) UNet and (ii) text-encoder of the diffusion model. In particular, we show that unlike generative large-language models, knowledge about different attributes is not localized in isolated components, but is instead distributed amongst a set of components in the conditional UNet. These sets of components are often distinct for different visual attributes. Remarkably, we find that the CLIP text-encoder in public text-to-image models such as Stable-Diffusion contains only one causal state across different visual attributes, and this is the first self-attention layer corresponding to the last subject token of the attribute in the caption. This is in stark contrast to the causal states in other language models which are often the mid-MLP layers. Based on this observation of only one causal state in the text-encoder, we introduce a fast, data-free model editing method Diff-QuickFix which can effectively edit concepts in text-to-image models. DiffQuickFix can edit (ablate) concepts in under a second with a closed-form update, providing a significant 1000x speedup and comparable editing performance to existing fine-tuning based editing methods.

Localizzazione e Modifica della Conoscenza nei Modelli Generativi Testo-Immagine

Localizing and Editing Knowledge in Text-to-Image Generative Models

Abstract

Support