Разбор SDXL Turbo: Интерпретация моделей текст-в-изображение с помощью разреженных автоэнкодеровUnpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse
Autoencoders
Разреженные автокодировщики (SAE) стали ключевым элементом в обратной разработке крупных языковых моделей (LLM). Для LLM они показали способность декомпозировать промежуточные представления, которые часто нельзя интерпретировать напрямую, на разреженные суммы интерпретируемых признаков, облегчая лучший контроль и последующий анализ. Однако аналогичные анализы и подходы отсутствовали для моделей текст-изображение. Мы исследовали возможность использования SAE для изучения интерпретируемых признаков для моделей диффузии текст-изображение с несколькими этапами, таких как SDXL Turbo. Для этого мы обучаем SAE на обновлениях, выполняемых блоками трансформера в денойзинг U-Net SDXL Turbo. Мы обнаружили, что их изученные признаки интерпретируемы, вызывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы обнаружили один блок, который в основном занимается композицией изображения, один, который в основном отвечает за добавление локальных деталей, и один за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом к лучшему пониманию внутренностей генеративных моделей текст-изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изученных SAE, для визуальной области. Код доступен по ссылке https://github.com/surkovv/sdxl-unbox