Разбор SDXL Turbo: Интерпретация моделей текст-в-изображение с помощью разреженных автоэнкодеров
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders
October 28, 2024
Авторы: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI
Аннотация
Разреженные автокодировщики (SAE) стали ключевым элементом в обратной разработке крупных языковых моделей (LLM). Для LLM они показали способность декомпозировать промежуточные представления, которые часто нельзя интерпретировать напрямую, на разреженные суммы интерпретируемых признаков, облегчая лучший контроль и последующий анализ. Однако аналогичные анализы и подходы отсутствовали для моделей текст-изображение. Мы исследовали возможность использования SAE для изучения интерпретируемых признаков для моделей диффузии текст-изображение с несколькими этапами, таких как SDXL Turbo. Для этого мы обучаем SAE на обновлениях, выполняемых блоками трансформера в денойзинг U-Net SDXL Turbo. Мы обнаружили, что их изученные признаки интерпретируемы, вызывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы обнаружили один блок, который в основном занимается композицией изображения, один, который в основном отвечает за добавление локальных деталей, и один за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом к лучшему пониманию внутренностей генеративных моделей текст-изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изученных SAE, для визуальной области.
Код доступен по ссылке https://github.com/surkovv/sdxl-unbox
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse
engineering of large-language models (LLMs). For LLMs, they have been shown to
decompose intermediate representations that often are not interpretable
directly into sparse sums of interpretable features, facilitating better
control and subsequent analysis. However, similar analyses and approaches have
been lacking for text-to-image models. We investigated the possibility of using
SAEs to learn interpretable features for a few-step text-to-image diffusion
models, such as SDXL Turbo. To this end, we train SAEs on the updates performed
by transformer blocks within SDXL Turbo's denoising U-net. We find that their
learned features are interpretable, causally influence the generation process,
and reveal specialization among the blocks. In particular, we find one block
that deals mainly with image composition, one that is mainly responsible for
adding local details, and one for color, illumination, and style. Therefore,
our work is an important first step towards better understanding the internals
of generative text-to-image models like SDXL Turbo and showcases the potential
of features learned by SAEs for the visual domain.
Code is available at https://github.com/surkovv/sdxl-unboxSummary
AI-Generated Summary