SAeUron: Apprendimento interpretabile di disimparare concetti nei modelli di diffusione con autoencoder sparsi
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
January 29, 2025
Autori: Bartosz Cywiński, Kamil Deja
cs.AI
Abstract
I modelli di diffusione, seppur potenti, possono generare involontariamente contenuti dannosi o indesiderati, sollevando significativi problemi etici e di sicurezza. Gli approcci recenti di disapprendimento automatico offrono soluzioni potenziali ma spesso mancano di trasparenza, rendendo difficile comprendere le modifiche che introducono nel modello di base. In questo lavoro, presentiamo SAeUron, un nuovo metodo che sfrutta le caratteristiche apprese da autoencoder sparsi (SAE) per rimuovere concetti indesiderati nei modelli di diffusione testo-immagine. Innanzitutto, dimostriamo che gli SAE, addestrati in modo non supervisionato su attivazioni da più passaggi di denoising del modello di diffusione, catturano caratteristiche sparse e interpretabili corrispondenti a concetti specifici. Sulla base di ciò, proponiamo un metodo di selezione delle caratteristiche che consente interventi precisi sulle attivazioni del modello per bloccare contenuti mirati preservando al contempo le prestazioni complessive. La valutazione con il competitivo benchmark UnlearnCanvas sull'eliminazione degli oggetti e degli stili mette in evidenza le prestazioni all'avanguardia di SAeUron. Inoltre, mostriamo che con un singolo SAE possiamo rimuovere contemporaneamente più concetti e che, a differenza di altri metodi, SAeUron riduce la possibilità di generare contenuti indesiderati, anche in caso di attacco avversario. Il codice e i checkpoint sono disponibili su: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or
undesirable content, raising significant ethical and safety concerns. Recent
machine unlearning approaches offer potential solutions but often lack
transparency, making it difficult to understand the changes they introduce to
the base model. In this work, we introduce SAeUron, a novel method leveraging
features learned by sparse autoencoders (SAEs) to remove unwanted concepts in
text-to-image diffusion models. First, we demonstrate that SAEs, trained in an
unsupervised manner on activations from multiple denoising timesteps of the
diffusion model, capture sparse and interpretable features corresponding to
specific concepts. Building on this, we propose a feature selection method that
enables precise interventions on model activations to block targeted content
while preserving overall performance. Evaluation with the competitive
UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's
state-of-the-art performance. Moreover, we show that with a single SAE, we can
remove multiple concepts simultaneously and that in contrast to other methods,
SAeUron mitigates the possibility of generating unwanted content, even under
adversarial attack. Code and checkpoints are available at:
https://github.com/cywinski/SAeUron.Summary
AI-Generated Summary