SAeUron: スパースオートエンコーダーを用いた拡散モデルにおける解釈可能なコンセプトの忘却
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
January 29, 2025
著者: Bartosz Cywiński, Kamil Deja
cs.AI
要旨
拡散モデルは強力ですが、意図しない有害または望ましくないコンテンツを誤って生成する可能性があり、重大な倫理的および安全上の懸念を引き起こします。最近の機械のアンラーニング手法は潜在的な解決策を提供しますが、しばしば透明性に欠け、基本モデルに導入される変更を理解するのが難しいです。本研究では、SAE(疎なオートエンコーダ)によって学習された特徴を活用して、テキストから画像への拡散モデル内の不要な概念を除去する新しい手法であるSAeUronを紹介します。まず、拡散モデルの複数のノイズ除去タイムステップからの活性化に対して非監督学習でトレーニングされたSAEが、特定の概念に対応する疎で解釈可能な特徴を捉えることを示します。これに基づいて、モデルの活性化に対して精密な介入を可能にする特徴選択手法を提案します。オブジェクトおよびスタイルのアンラーニングに関する競争力のあるUnlearnCanvasベンチマークでの評価は、SAeUronの最先端のパフォーマンスを示しています。さらに、1つのSAEで複数の概念を同時に除去できること、および他の手法とは対照的に、SAeUronが望ましくないコンテンツの生成可能性を緩和し、さらに敵対的攻撃下でも対処できることを示します。コードとチェックポイントは以下で入手可能です:https://github.com/cywinski/SAeUron。
English
Diffusion models, while powerful, can inadvertently generate harmful or
undesirable content, raising significant ethical and safety concerns. Recent
machine unlearning approaches offer potential solutions but often lack
transparency, making it difficult to understand the changes they introduce to
the base model. In this work, we introduce SAeUron, a novel method leveraging
features learned by sparse autoencoders (SAEs) to remove unwanted concepts in
text-to-image diffusion models. First, we demonstrate that SAEs, trained in an
unsupervised manner on activations from multiple denoising timesteps of the
diffusion model, capture sparse and interpretable features corresponding to
specific concepts. Building on this, we propose a feature selection method that
enables precise interventions on model activations to block targeted content
while preserving overall performance. Evaluation with the competitive
UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's
state-of-the-art performance. Moreover, we show that with a single SAE, we can
remove multiple concepts simultaneously and that in contrast to other methods,
SAeUron mitigates the possibility of generating unwanted content, even under
adversarial attack. Code and checkpoints are available at:
https://github.com/cywinski/SAeUron.Summary
AI-Generated Summary