SAeUron: Interpreteerbaar Concept Vergeten in Diffusiemodellen met Schaarse Auto-encoders
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
January 29, 2025
Auteurs: Bartosz Cywiński, Kamil Deja
cs.AI
Samenvatting
Diffusiemodellen, hoewel krachtig, kunnen onbedoeld schadelijke of ongewenste inhoud genereren, wat aanzienlijke ethische en veiligheidszorgen met zich meebrengt. Recente machine-unlearningbenaderingen bieden mogelijke oplossingen, maar missen vaak transparantie, waardoor het moeilijk is om de veranderingen die ze aanbrengen in het basismodel te begrijpen. In dit werk introduceren we SAeUron, een nieuw methodiek die gebruikmaakt van kenmerken die zijn geleerd door schaarse auto-encoders (SAE's) om ongewenste concepten in tekst-naar-afbeelding diffusiemodellen te verwijderen. Allereerst tonen we aan dat SAE's, op een onbewaakte manier getraind op activaties van meerdere denoising tijdstappen van het diffusiemodel, spaarzame en interpreteerbare kenmerken vastleggen die overeenkomen met specifieke concepten. Voortbouwend hierop stellen we een kenmerkselectiemethode voor die precieze interventies op modelactivaties mogelijk maakt om gerichte inhoud te blokkeren terwijl de algehele prestaties behouden blijven. Evaluatie met de competitieve UnlearnCanvas benchmark op object- en stijlunlearning benadrukt de state-of-the-art prestaties van SAeUron. Bovendien laten we zien dat we met een enkele SAE meerdere concepten tegelijk kunnen verwijderen en dat SAeUron, in tegenstelling tot andere methoden, de mogelijkheid om ongewenste inhoud te genereren, zelfs onder een aanval van een tegenstander, vermindert. Code en checkpoints zijn beschikbaar op: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or
undesirable content, raising significant ethical and safety concerns. Recent
machine unlearning approaches offer potential solutions but often lack
transparency, making it difficult to understand the changes they introduce to
the base model. In this work, we introduce SAeUron, a novel method leveraging
features learned by sparse autoencoders (SAEs) to remove unwanted concepts in
text-to-image diffusion models. First, we demonstrate that SAEs, trained in an
unsupervised manner on activations from multiple denoising timesteps of the
diffusion model, capture sparse and interpretable features corresponding to
specific concepts. Building on this, we propose a feature selection method that
enables precise interventions on model activations to block targeted content
while preserving overall performance. Evaluation with the competitive
UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's
state-of-the-art performance. Moreover, we show that with a single SAE, we can
remove multiple concepts simultaneously and that in contrast to other methods,
SAeUron mitigates the possibility of generating unwanted content, even under
adversarial attack. Code and checkpoints are available at:
https://github.com/cywinski/SAeUron.Summary
AI-Generated Summary