El Lenguaje Oculto de los Modelos de Difusión
The Hidden Language of Diffusion Models
June 1, 2023
Autores: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
cs.AI
Resumen
Los modelos de difusión de texto a imagen han demostrado una capacidad sin igual para generar imágenes de alta calidad y diversidad a partir de un concepto textual (por ejemplo, "un médico", "amor"). Sin embargo, el proceso interno de mapear texto a una representación visual rica sigue siendo un enigma. En este trabajo, abordamos el desafío de comprender las representaciones de conceptos en modelos de texto a imagen descomponiendo un texto de entrada en un pequeño conjunto de elementos interpretables. Esto se logra aprendiendo un pseudo-token que es una combinación ponderada y dispersa de tokens del vocabulario del modelo, con el objetivo de reconstruir las imágenes generadas para el concepto dado. Aplicado sobre el modelo de última generación Stable Diffusion, esta descomposición revela estructuras no triviales y sorprendentes en las representaciones de los conceptos. Por ejemplo, encontramos que algunos conceptos como "un presidente" o "un compositor" están dominados por instancias específicas (por ejemplo, "Obama", "Biden") y sus interpolaciones. Otros conceptos, como "felicidad", combinan términos asociados que pueden ser concretos ("familia", "risa") o abstractos ("amistad", "emoción"). Además de permitirnos observar el funcionamiento interno de Stable Diffusion, nuestro método también habilita aplicaciones como la descomposición de una sola imagen en tokens, la detección y mitigación de sesgos, y la manipulación semántica de imágenes. Nuestro código estará disponible en: https://hila-chefer.github.io/Conceptor/
English
Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual concept (e.g., "a doctor",
"love"). However, the internal process of mapping text to a rich visual
representation remains an enigma. In this work, we tackle the challenge of
understanding concept representations in text-to-image models by decomposing an
input text prompt into a small set of interpretable elements. This is achieved
by learning a pseudo-token that is a sparse weighted combination of tokens from
the model's vocabulary, with the objective of reconstructing the images
generated for the given concept. Applied over the state-of-the-art Stable
Diffusion model, this decomposition reveals non-trivial and surprising
structures in the representations of concepts. For example, we find that some
concepts such as "a president" or "a composer" are dominated by specific
instances (e.g., "Obama", "Biden") and their interpolations. Other concepts,
such as "happiness" combine associated terms that can be concrete ("family",
"laughter") or abstract ("friendship", "emotion"). In addition to peering into
the inner workings of Stable Diffusion, our method also enables applications
such as single-image decomposition to tokens, bias detection and mitigation,
and semantic image manipulation. Our code will be available at:
https://hila-chefer.github.io/Conceptor/