ChatPaper.aiChatPaper

Скрытый язык моделей диффузии

The Hidden Language of Diffusion Models

June 1, 2023
Авторы: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
cs.AI

Аннотация

Модели диффузии для генерации изображений из текста продемонстрировали беспрецедентную способность создавать высококачественные и разнообразные изображения на основе текстовых концепций (например, "врач", "любовь"). Однако внутренний процесс преобразования текста в богатое визуальное представление остается загадкой. В данной работе мы решаем задачу понимания представления концепций в моделях генерации изображений из текста путем декомпозиции входного текстового запроса на небольшой набор интерпретируемых элементов. Это достигается за счет обучения псевдотокена, который представляет собой разреженную взвешенную комбинацию токенов из словаря модели, с целью реконструкции изображений, сгенерированных для данной концепции. Примененная к современной модели Stable Diffusion, эта декомпозиция выявляет нетривиальные и удивительные структуры в представлениях концепций. Например, мы обнаруживаем, что некоторые концепции, такие как "президент" или "композитор", доминируются конкретными примерами (например, "Обама", "Байден") и их интерполяциями. Другие концепции, такие как "счастье", объединяют связанные термины, которые могут быть конкретными ("семья", "смех") или абстрактными ("дружба", "эмоция"). Помимо изучения внутренних механизмов Stable Diffusion, наш метод также позволяет применять такие задачи, как декомпозиция одного изображения на токены, обнаружение и устранение смещений, а также семантическое манипулирование изображениями. Наш код будет доступен по адресу: https://hila-chefer.github.io/Conceptor/.
English
Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle the challenge of understanding concept representations in text-to-image models by decomposing an input text prompt into a small set of interpretable elements. This is achieved by learning a pseudo-token that is a sparse weighted combination of tokens from the model's vocabulary, with the objective of reconstructing the images generated for the given concept. Applied over the state-of-the-art Stable Diffusion model, this decomposition reveals non-trivial and surprising structures in the representations of concepts. For example, we find that some concepts such as "a president" or "a composer" are dominated by specific instances (e.g., "Obama", "Biden") and their interpolations. Other concepts, such as "happiness" combine associated terms that can be concrete ("family", "laughter") or abstract ("friendship", "emotion"). In addition to peering into the inner workings of Stable Diffusion, our method also enables applications such as single-image decomposition to tokens, bias detection and mitigation, and semantic image manipulation. Our code will be available at: https://hila-chefer.github.io/Conceptor/
PDF50December 15, 2024