SAeUron : Désapprentissage de concepts interprétables dans les modèles de diffusion avec des autoencodeurs épars
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
January 29, 2025
Auteurs: Bartosz Cywiński, Kamil Deja
cs.AI
Résumé
Les modèles de diffusion, bien que puissants, peuvent involontairement générer du contenu nuisible ou indésirable, soulevant d'importantes préoccupations éthiques et de sécurité. Les récentes approches de désapprentissage automatique offrent des solutions potentielles mais manquent souvent de transparence, rendant difficile la compréhension des modifications qu'elles introduisent dans le modèle de base. Dans ce travail, nous présentons SAeUron, une méthode novatrice exploitant les caractéristiques apprises par des autoencodeurs parcimonieux (SAEs) pour éliminer les concepts indésirables dans les modèles de diffusion texte-image. Tout d'abord, nous démontrons que les SAEs, formés de manière non supervisée sur les activations de plusieurs étapes de débruitage du modèle de diffusion, capturent des caractéristiques parcimonieuses et interprétables correspondant à des concepts spécifiques. En nous appuyant sur cela, nous proposons une méthode de sélection de caractéristiques qui permet des interventions précises sur les activations du modèle pour bloquer le contenu ciblé tout en préservant les performances globales. L'évaluation avec le benchmark compétitif UnlearnCanvas sur le désapprentissage d'objets et de styles met en évidence les performances de pointe de SAeUron. De plus, nous montrons qu'avec un seul SAE, nous pouvons éliminer plusieurs concepts simultanément et qu'en contraste avec d'autres méthodes, SAeUron atténue la possibilité de générer du contenu indésirable, même en cas d'attaque adversaire. Le code et les points de contrôle sont disponibles sur : https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or
undesirable content, raising significant ethical and safety concerns. Recent
machine unlearning approaches offer potential solutions but often lack
transparency, making it difficult to understand the changes they introduce to
the base model. In this work, we introduce SAeUron, a novel method leveraging
features learned by sparse autoencoders (SAEs) to remove unwanted concepts in
text-to-image diffusion models. First, we demonstrate that SAEs, trained in an
unsupervised manner on activations from multiple denoising timesteps of the
diffusion model, capture sparse and interpretable features corresponding to
specific concepts. Building on this, we propose a feature selection method that
enables precise interventions on model activations to block targeted content
while preserving overall performance. Evaluation with the competitive
UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's
state-of-the-art performance. Moreover, we show that with a single SAE, we can
remove multiple concepts simultaneously and that in contrast to other methods,
SAeUron mitigates the possibility of generating unwanted content, even under
adversarial attack. Code and checkpoints are available at:
https://github.com/cywinski/SAeUron.Summary
AI-Generated Summary