Desempacotando SDXL Turbo: Interpretando Modelos de Texto-para-Imagem com Autoencoders EsparsosUnpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse
Autoencoders
Os autoencoders esparsos (SAEs) tornaram-se um ingrediente essencial na engenharia reversa de grandes modelos de linguagem (LLMs). Para os LLMs, foi demonstrado que eles decompõem representações intermediárias que frequentemente não são diretamente interpretáveis em somas esparsas de características interpretáveis, facilitando um melhor controle e análise subsequente. No entanto, análises e abordagens semelhantes têm faltado para modelos de texto para imagem. Investigamos a possibilidade de usar SAEs para aprender características interpretáveis para modelos de difusão de texto para imagem de poucas etapas, como o SDXL Turbo. Para isso, treinamos SAEs nas atualizações realizadas pelos blocos transformadores dentro do denoising U-net do SDXL Turbo. Descobrimos que suas características aprendidas são interpretáveis, influenciam causalmente o processo de geração e revelam especialização entre os blocos. Em particular, encontramos um bloco que lida principalmente com composição de imagem, um que é principalmente responsável por adicionar detalhes locais, e um para cor, iluminação e estilo. Portanto, nosso trabalho é um importante primeiro passo para melhor compreender os internos de modelos generativos de texto para imagem como o SDXL Turbo e demonstra o potencial das características aprendidas pelos SAEs para o domínio visual. O código está disponível em https://github.com/surkovv/sdxl-unbox