A Linguagem Oculta dos Modelos de Difusão
The Hidden Language of Diffusion Models
June 1, 2023
Autores: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
cs.AI
Resumo
Modelos de difusão texto-imagem demonstraram uma capacidade incomparável de gerar imagens de alta qualidade e diversidade a partir de um conceito textual (por exemplo, "um médico", "amor"). No entanto, o processo interno de mapeamento de texto para uma representação visual rica permanece um enigma. Neste trabalho, enfrentamos o desafio de entender as representações de conceitos em modelos texto-imagem, decompondo um prompt de texto de entrada em um pequeno conjunto de elementos interpretáveis. Isso é alcançado aprendendo um pseudo-token que é uma combinação ponderada e esparsa de tokens do vocabulário do modelo, com o objetivo de reconstruir as imagens geradas para o conceito dado. Aplicada ao modelo de última geração Stable Diffusion, essa decomposição revela estruturas não triviais e surpreendentes nas representações dos conceitos. Por exemplo, descobrimos que alguns conceitos, como "um presidente" ou "um compositor", são dominados por instâncias específicas (por exemplo, "Obama", "Biden") e suas interpolações. Outros conceitos, como "felicidade", combinam termos associados que podem ser concretos ("família", "riso") ou abstratos ("amizade", "emoção"). Além de espiar o funcionamento interno do Stable Diffusion, nosso método também permite aplicações como decomposição de imagem única em tokens, detecção e mitigação de viés e manipulação semântica de imagens. Nosso código estará disponível em: https://hila-chefer.github.io/Conceptor/
English
Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual concept (e.g., "a doctor",
"love"). However, the internal process of mapping text to a rich visual
representation remains an enigma. In this work, we tackle the challenge of
understanding concept representations in text-to-image models by decomposing an
input text prompt into a small set of interpretable elements. This is achieved
by learning a pseudo-token that is a sparse weighted combination of tokens from
the model's vocabulary, with the objective of reconstructing the images
generated for the given concept. Applied over the state-of-the-art Stable
Diffusion model, this decomposition reveals non-trivial and surprising
structures in the representations of concepts. For example, we find that some
concepts such as "a president" or "a composer" are dominated by specific
instances (e.g., "Obama", "Biden") and their interpolations. Other concepts,
such as "happiness" combine associated terms that can be concrete ("family",
"laughter") or abstract ("friendship", "emotion"). In addition to peering into
the inner workings of Stable Diffusion, our method also enables applications
such as single-image decomposition to tokens, bias detection and mitigation,
and semantic image manipulation. Our code will be available at:
https://hila-chefer.github.io/Conceptor/