Il Linguaggio Nascosto dei Modelli di Diffusione

Abstract

I modelli di diffusione text-to-image hanno dimostrato una capacità senza pari nel generare immagini di alta qualità e diversificate a partire da un concetto testuale (ad esempio, "un medico", "amore"). Tuttavia, il processo interno di mappatura del testo in una rappresentazione visiva ricca rimane un enigma. In questo lavoro, affrontiamo la sfida di comprendere le rappresentazioni concettuali nei modelli text-to-image scomponendo un prompt di input in un piccolo insieme di elementi interpretabili. Questo viene ottenuto apprendendo uno pseudo-token che è una combinazione ponderata e sparsa di token del vocabolario del modello, con l'obiettivo di ricostruire le immagini generate per il concetto dato. Applicata al modello all'avanguardia Stable Diffusion, questa scomposizione rivela strutture non banali e sorprendenti nelle rappresentazioni dei concetti. Ad esempio, scopriamo che alcuni concetti come "un presidente" o "un compositore" sono dominati da istanze specifiche (ad esempio, "Obama", "Biden") e dalle loro interpolazioni. Altri concetti, come "felicità", combinano termini associati che possono essere concreti ("famiglia", "risate") o astratti ("amicizia", "emozione"). Oltre a scrutare il funzionamento interno di Stable Diffusion, il nostro metodo abilita anche applicazioni come la scomposizione di singole immagini in token, il rilevamento e la mitigazione dei bias, e la manipolazione semantica delle immagini. Il nostro codice sarà disponibile all'indirizzo: https://hila-chefer.github.io/Conceptor/

English

Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle the challenge of understanding concept representations in text-to-image models by decomposing an input text prompt into a small set of interpretable elements. This is achieved by learning a pseudo-token that is a sparse weighted combination of tokens from the model's vocabulary, with the objective of reconstructing the images generated for the given concept. Applied over the state-of-the-art Stable Diffusion model, this decomposition reveals non-trivial and surprising structures in the representations of concepts. For example, we find that some concepts such as "a president" or "a composer" are dominated by specific instances (e.g., "Obama", "Biden") and their interpolations. Other concepts, such as "happiness" combine associated terms that can be concrete ("family", "laughter") or abstract ("friendship", "emotion"). In addition to peering into the inner workings of Stable Diffusion, our method also enables applications such as single-image decomposition to tokens, bias detection and mitigation, and semantic image manipulation. Our code will be available at: https://hila-chefer.github.io/Conceptor/

Il Linguaggio Nascosto dei Modelli di Diffusione

The Hidden Language of Diffusion Models

Abstract

Support