Le Langage Caché des Modèles de Diffusion
The Hidden Language of Diffusion Models
June 1, 2023
Auteurs: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
cs.AI
Résumé
Les modèles de diffusion texte-image ont démontré une capacité inégalée à générer des images de haute qualité et diversifiées à partir d'un concept textuel (par exemple, "un médecin", "l'amour"). Cependant, le processus interne de transformation du texte en une représentation visuelle riche reste une énigme. Dans ce travail, nous relevons le défi de comprendre les représentations conceptuelles dans les modèles texte-image en décomposant une invite textuelle en un petit ensemble d'éléments interprétables. Cela est réalisé en apprenant un pseudo-jeton qui est une combinaison pondérée et parcimonieuse de jetons issus du vocabulaire du modèle, avec pour objectif de reconstruire les images générées pour le concept donné. Appliquée au modèle Stable Diffusion de pointe, cette décomposition révèle des structures non triviales et surprenantes dans les représentations des concepts. Par exemple, nous constatons que certains concepts tels que "un président" ou "un compositeur" sont dominés par des instances spécifiques (par exemple, "Obama", "Biden") et leurs interpolations. D'autres concepts, comme "le bonheur", combinent des termes associés qui peuvent être concrets ("famille", "rire") ou abstraits ("amitié", "émotion"). En plus de permettre un aperçu du fonctionnement interne de Stable Diffusion, notre méthode ouvre également la voie à des applications telles que la décomposition d'une seule image en jetons, la détection et l'atténuation des biais, ainsi que la manipulation sémantique d'images. Notre code sera disponible à l'adresse suivante : https://hila-chefer.github.io/Conceptor/
English
Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual concept (e.g., "a doctor",
"love"). However, the internal process of mapping text to a rich visual
representation remains an enigma. In this work, we tackle the challenge of
understanding concept representations in text-to-image models by decomposing an
input text prompt into a small set of interpretable elements. This is achieved
by learning a pseudo-token that is a sparse weighted combination of tokens from
the model's vocabulary, with the objective of reconstructing the images
generated for the given concept. Applied over the state-of-the-art Stable
Diffusion model, this decomposition reveals non-trivial and surprising
structures in the representations of concepts. For example, we find that some
concepts such as "a president" or "a composer" are dominated by specific
instances (e.g., "Obama", "Biden") and their interpolations. Other concepts,
such as "happiness" combine associated terms that can be concrete ("family",
"laughter") or abstract ("friendship", "emotion"). In addition to peering into
the inner workings of Stable Diffusion, our method also enables applications
such as single-image decomposition to tokens, bias detection and mitigation,
and semantic image manipulation. Our code will be available at:
https://hila-chefer.github.io/Conceptor/