Desempaquetando SDXL Turbo: Interpretando modelos de texto a imagen con autoencoders dispersos.
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders
October 28, 2024
Autores: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI
Resumen
Los autoencoders dispersos (SAEs) se han convertido en un ingrediente fundamental en la ingeniería inversa de modelos de lenguaje extensos (LLMs). Para los LLMs, se ha demostrado que descomponen representaciones intermedias que a menudo no son directamente interpretables en sumas dispersas de rasgos interpretables, facilitando un mejor control y análisis posterior. Sin embargo, análisis y enfoques similares han estado ausentes para modelos de texto a imagen. Investigamos la posibilidad de utilizar SAEs para aprender rasgos interpretables para modelos de difusión de texto a imagen de unos pocos pasos, como SDXL Turbo. Con este fin, entrenamos SAEs en las actualizaciones realizadas por bloques transformadores dentro de la U-net de desruido de SDXL Turbo. Descubrimos que sus rasgos aprendidos son interpretables, influyen causalmente en el proceso de generación y revelan especialización entre los bloques. En particular, encontramos un bloque que se ocupa principalmente de la composición de la imagen, uno que es principalmente responsable de agregar detalles locales, y uno para color, iluminación y estilo. Por lo tanto, nuestro trabajo es un importante primer paso hacia una mejor comprensión de los aspectos internos de modelos generativos de texto a imagen como SDXL Turbo y muestra el potencial de los rasgos aprendidos por SAEs para el dominio visual. El código está disponible en https://github.com/surkovv/sdxl-unbox
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse
engineering of large-language models (LLMs). For LLMs, they have been shown to
decompose intermediate representations that often are not interpretable
directly into sparse sums of interpretable features, facilitating better
control and subsequent analysis. However, similar analyses and approaches have
been lacking for text-to-image models. We investigated the possibility of using
SAEs to learn interpretable features for a few-step text-to-image diffusion
models, such as SDXL Turbo. To this end, we train SAEs on the updates performed
by transformer blocks within SDXL Turbo's denoising U-net. We find that their
learned features are interpretable, causally influence the generation process,
and reveal specialization among the blocks. In particular, we find one block
that deals mainly with image composition, one that is mainly responsible for
adding local details, and one for color, illumination, and style. Therefore,
our work is an important first step towards better understanding the internals
of generative text-to-image models like SDXL Turbo and showcases the potential
of features learned by SAEs for the visual domain.
Code is available at https://github.com/surkovv/sdxl-unboxSummary
AI-Generated Summary