Analisi dettagliata di SDXL Turbo: Interpretazione dei modelli di testo-immagine con autoencoder sparsiUnpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse
Autoencoders
Gli autoencoder sparsi (SAE) sono diventati un ingrediente fondamentale nel reverse engineering dei grandi modelli di linguaggio (LLM). Per i LLM, è stato dimostrato che decompongono rappresentazioni intermedie spesso non direttamente interpretabili in somme sparse di caratteristiche interpretabili, facilitando un migliore controllo e successiva analisi. Tuttavia, analisi e approcci simili sono mancati per i modelli testo-immagine. Abbiamo investigato la possibilità di utilizzare SAE per apprendere caratteristiche interpretabili per modelli di diffusione testo-immagine a pochi passaggi, come SDXL Turbo. A questo scopo, addestriamo SAE sugli aggiornamenti eseguiti dai blocchi trasformatore all'interno del denoising U-net di SDXL Turbo. Scopriamo che le caratteristiche apprese sono interpretabili, influenzano causalmente il processo di generazione e rivelano specializzazioni tra i blocchi. In particolare, troviamo un blocco che si occupa principalmente della composizione dell'immagine, uno responsabile principalmente dell'aggiunta di dettagli locali e uno per colore, illuminazione e stile. Pertanto, il nostro lavoro è un importante primo passo verso una migliore comprensione degli interni dei modelli generativi testo-immagine come SDXL Turbo e mostra il potenziale delle caratteristiche apprese da SAE per il dominio visivo. Il codice è disponibile su https://github.com/surkovv/sdxl-unbox