Het ontrafelen van SDXL Turbo: Het interpreteren van tekst-naar-afbeelding modellen met schaarse auto-encoders.Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse
Autoencoders
Schaarse auto-encoders (SAE's) zijn een essentieel onderdeel geworden bij het reverse-engineeren van grote taalmodellen (LLM's). Voor LLM's is aangetoond dat ze tussenliggende representaties kunnen ontbinden die vaak niet direct interpreteerbaar zijn in schaarse sommen van interpreteerbare kenmerken, wat een betere controle en daaropvolgende analyse mogelijk maakt. Echter, soortgelijke analyses en benaderingen ontbreken voor tekst-naar-afbeelding modellen. We hebben onderzocht of het mogelijk is om SAE's te gebruiken om interpreteerbare kenmerken te leren voor enkele-staps tekst-naar-afbeelding diffusiemodellen, zoals SDXL Turbo. Hiervoor trainen we SAE's op de updates uitgevoerd door transformer blokken binnen de denoising U-net van SDXL Turbo. We ontdekken dat hun geleerde kenmerken interpreteerbaar zijn, causaal invloed hebben op het generatieproces, en specialisatie onthullen tussen de blokken. In het bijzonder vinden we één blok dat voornamelijk bezig is met beeldcompositie, één die voornamelijk verantwoordelijk is voor het toevoegen van lokale details, en één voor kleur, belichting en stijl. Daarom is ons werk een belangrijke eerste stap naar een beter begrip van de interne werking van generatieve tekst-naar-afbeelding modellen zoals SDXL Turbo en toont het het potentieel van kenmerken die zijn geleerd door SAE's voor het visuele domein. De code is beschikbaar op https://github.com/surkovv/sdxl-unbox