SDXL Turboの解説: スパースオートエンコーダを用いたテキストから画像へのモデルの解釈
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders
October 28, 2024
著者: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI
要旨
疎なオートエンコーダ(SAE)は、大規模言語モデル(LLM)の逆工学において中心的な要素となっています。LLMにおいて、SAEは、通常直接解釈できない中間表現を疎な解釈可能な特徴の合計に分解し、より良い制御とその後の分析を容易にすることが示されています。しかし、テキストから画像へのモデルに対しては、類似した分析やアプローチが不足しています。私たちは、SDXL Turboなどの数段階のテキストから画像への拡散モデルに対して、SAEを使用して解釈可能な特徴を学習する可能性を調査しました。このために、SDXL Turboのdenoising U-net内で行われるトランスフォーマーブロックの更新にSAEをトレーニングしました。その結果、学習された特徴は解釈可能であり、生成プロセスに因果関係を持ち、ブロック間での専門化を明らかにします。特に、画像の構成に主に関わるブロック、主にローカルな詳細を追加する責任があるブロック、および色彩、照明、スタイルに関するブロックが見つかりました。したがって、私たちの研究は、SDXL Turboのような生成的テキストから画像へのモデルの内部をよりよく理解するための重要な第一歩であり、SAEによって学習された特徴の視覚領域での潜在能力を示しています。
コードはhttps://github.com/surkovv/sdxl-unboxで入手可能です。
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse
engineering of large-language models (LLMs). For LLMs, they have been shown to
decompose intermediate representations that often are not interpretable
directly into sparse sums of interpretable features, facilitating better
control and subsequent analysis. However, similar analyses and approaches have
been lacking for text-to-image models. We investigated the possibility of using
SAEs to learn interpretable features for a few-step text-to-image diffusion
models, such as SDXL Turbo. To this end, we train SAEs on the updates performed
by transformer blocks within SDXL Turbo's denoising U-net. We find that their
learned features are interpretable, causally influence the generation process,
and reveal specialization among the blocks. In particular, we find one block
that deals mainly with image composition, one that is mainly responsible for
adding local details, and one for color, illumination, and style. Therefore,
our work is an important first step towards better understanding the internals
of generative text-to-image models like SDXL Turbo and showcases the potential
of features learned by SAEs for the visual domain.
Code is available at https://github.com/surkovv/sdxl-unboxSummary
AI-Generated Summary