Le Langage Caché des Modèles de Diffusion

Résumé

Les modèles de diffusion texte-image ont démontré une capacité inégalée à générer des images de haute qualité et diversifiées à partir d'un concept textuel (par exemple, "un médecin", "l'amour"). Cependant, le processus interne de transformation du texte en une représentation visuelle riche reste une énigme. Dans ce travail, nous relevons le défi de comprendre les représentations conceptuelles dans les modèles texte-image en décomposant une invite textuelle en un petit ensemble d'éléments interprétables. Cela est réalisé en apprenant un pseudo-jeton qui est une combinaison pondérée et parcimonieuse de jetons issus du vocabulaire du modèle, avec pour objectif de reconstruire les images générées pour le concept donné. Appliquée au modèle Stable Diffusion de pointe, cette décomposition révèle des structures non triviales et surprenantes dans les représentations des concepts. Par exemple, nous constatons que certains concepts tels que "un président" ou "un compositeur" sont dominés par des instances spécifiques (par exemple, "Obama", "Biden") et leurs interpolations. D'autres concepts, comme "le bonheur", combinent des termes associés qui peuvent être concrets ("famille", "rire") ou abstraits ("amitié", "émotion"). En plus de permettre un aperçu du fonctionnement interne de Stable Diffusion, notre méthode ouvre également la voie à des applications telles que la décomposition d'une seule image en jetons, la détection et l'atténuation des biais, ainsi que la manipulation sémantique d'images. Notre code sera disponible à l'adresse suivante : https://hila-chefer.github.io/Conceptor/

English

Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle the challenge of understanding concept representations in text-to-image models by decomposing an input text prompt into a small set of interpretable elements. This is achieved by learning a pseudo-token that is a sparse weighted combination of tokens from the model's vocabulary, with the objective of reconstructing the images generated for the given concept. Applied over the state-of-the-art Stable Diffusion model, this decomposition reveals non-trivial and surprising structures in the representations of concepts. For example, we find that some concepts such as "a president" or "a composer" are dominated by specific instances (e.g., "Obama", "Biden") and their interpolations. Other concepts, such as "happiness" combine associated terms that can be concrete ("family", "laughter") or abstract ("friendship", "emotion"). In addition to peering into the inner workings of Stable Diffusion, our method also enables applications such as single-image decomposition to tokens, bias detection and mitigation, and semantic image manipulation. Our code will be available at: https://hila-chefer.github.io/Conceptor/

Le Langage Caché des Modèles de Diffusion

The Hidden Language of Diffusion Models

Résumé

Support