ChatPaper.aiChatPaper

Titel: Interpretierbares Konzeptverlernen in Diffusionsmodellen mit dünnbesetzten Autoencodern

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

January 29, 2025
Autoren: Bartosz Cywiński, Kamil Deja
cs.AI

Zusammenfassung

Diffusionsmodelle können trotz ihrer Leistungsfähigkeit unbeabsichtigt schädliche oder unerwünschte Inhalte erzeugen, was bedeutende ethische und Sicherheitsbedenken aufwirft. Aktuelle Ansätze zum Maschinenverlernen bieten potenzielle Lösungen, weisen jedoch oft eine mangelnde Transparenz auf, was es schwierig macht, die Änderungen zu verstehen, die sie am Basismodell vornehmen. In dieser Arbeit stellen wir SAeUron vor, eine neuartige Methode, die auf den von Sparse Autoencodern (SAEs) gelernten Merkmalen basiert, um unerwünschte Konzepte in Text-zu-Bild-Diffusionsmodellen zu entfernen. Zunächst zeigen wir, dass SAEs, die in einem unüberwachten Verfahren auf Aktivierungen aus mehreren Rauschunterdrückungszeitpunkten des Diffusionsmodells trainiert sind, spärliche und interpretierbare Merkmale erfassen, die spezifischen Konzepten entsprechen. Aufbauend darauf schlagen wir eine Merkmalsauswahlmethode vor, die präzise Eingriffe auf Modellaktivierungen ermöglicht, um gezielte Inhalte zu blockieren, während die Gesamtleistung erhalten bleibt. Die Evaluation mit dem wettbewerbsfähigen UnlearnCanvas-Benchmark zum Entlernen von Objekten und Stilen hebt die erstklassige Leistung von SAeUron hervor. Darüber hinaus zeigen wir, dass wir mit einem einzigen SAE mehrere Konzepte gleichzeitig entfernen können und dass SAeUron im Gegensatz zu anderen Methoden die Möglichkeit der Erzeugung unerwünschter Inhalte selbst unter einem adversariellen Angriff verringert. Der Code und die Checkpoints sind verfügbar unter: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or undesirable content, raising significant ethical and safety concerns. Recent machine unlearning approaches offer potential solutions but often lack transparency, making it difficult to understand the changes they introduce to the base model. In this work, we introduce SAeUron, a novel method leveraging features learned by sparse autoencoders (SAEs) to remove unwanted concepts in text-to-image diffusion models. First, we demonstrate that SAEs, trained in an unsupervised manner on activations from multiple denoising timesteps of the diffusion model, capture sparse and interpretable features corresponding to specific concepts. Building on this, we propose a feature selection method that enables precise interventions on model activations to block targeted content while preserving overall performance. Evaluation with the competitive UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's state-of-the-art performance. Moreover, we show that with a single SAE, we can remove multiple concepts simultaneously and that in contrast to other methods, SAeUron mitigates the possibility of generating unwanted content, even under adversarial attack. Code and checkpoints are available at: https://github.com/cywinski/SAeUron.

Summary

AI-Generated Summary

PDF62February 3, 2025