SDXL Turboの解説: スパースオートエンコーダを用いたテキストから画像へのモデルの解釈Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse
Autoencoders
疎なオートエンコーダ(SAE)は、大規模言語モデル(LLM)の逆工学において中心的な要素となっています。LLMにおいて、SAEは、通常直接解釈できない中間表現を疎な解釈可能な特徴の合計に分解し、より良い制御とその後の分析を容易にすることが示されています。しかし、テキストから画像へのモデルに対しては、類似した分析やアプローチが不足しています。私たちは、SDXL Turboなどの数段階のテキストから画像への拡散モデルに対して、SAEを使用して解釈可能な特徴を学習する可能性を調査しました。このために、SDXL Turboのdenoising U-net内で行われるトランスフォーマーブロックの更新にSAEをトレーニングしました。その結果、学習された特徴は解釈可能であり、生成プロセスに因果関係を持ち、ブロック間での専門化を明らかにします。特に、画像の構成に主に関わるブロック、主にローカルな詳細を追加する責任があるブロック、および色彩、照明、スタイルに関するブロックが見つかりました。したがって、私たちの研究は、SDXL Turboのような生成的テキストから画像へのモデルの内部をよりよく理解するための重要な第一歩であり、SAEによって学習された特徴の視覚領域での潜在能力を示しています。 コードはhttps://github.com/surkovv/sdxl-unboxで入手可能です。