SAeUron: Интерпретируемое забывание концепций в моделях диффузии с разреженными автоэнкодерами
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
January 29, 2025
Авторы: Bartosz Cywiński, Kamil Deja
cs.AI
Аннотация
Модели диффузии, хотя и мощные, могут нежелательно генерировать вредный или нежелательный контент, вызывая значительные этические и безопасностные проблемы. Недавние подходы машинного разучивания предлагают потенциальные решения, но часто лишены прозрачности, что затрудняет понимание внесенных ими изменений в базовую модель. В данной работе мы представляем SAeUron, новый метод, использующий особенности, выученные разреженными автокодировщиками (SAE), для удаления нежелательных концепций в моделях диффузии текста в изображение. Сначала мы демонстрируем, что SAE, обученные без учителя на активациях из нескольких временных шагов денойзинга модели диффузии, захватывают разреженные и интерпретируемые особенности, соответствующие конкретным концепциям. Основываясь на этом, мы предлагаем метод выбора особенностей, который позволяет точные вмешательства в активации модели для блокирования целевого контента, сохраняя общую производительность. Оценка с использованием конкурентного бенчмарка UnlearnCanvas по разучиванию объектов и стилей выделяет передовую производительность SAeUron. Более того, мы показываем, что с помощью одного SAE мы можем одновременно удалять несколько концепций и что, в отличие от других методов, SAeUron смягчает возможность генерации нежелательного контента, даже под атакой злоумышленников. Код и контрольные точки доступны по ссылке: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or
undesirable content, raising significant ethical and safety concerns. Recent
machine unlearning approaches offer potential solutions but often lack
transparency, making it difficult to understand the changes they introduce to
the base model. In this work, we introduce SAeUron, a novel method leveraging
features learned by sparse autoencoders (SAEs) to remove unwanted concepts in
text-to-image diffusion models. First, we demonstrate that SAEs, trained in an
unsupervised manner on activations from multiple denoising timesteps of the
diffusion model, capture sparse and interpretable features corresponding to
specific concepts. Building on this, we propose a feature selection method that
enables precise interventions on model activations to block targeted content
while preserving overall performance. Evaluation with the competitive
UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's
state-of-the-art performance. Moreover, we show that with a single SAE, we can
remove multiple concepts simultaneously and that in contrast to other methods,
SAeUron mitigates the possibility of generating unwanted content, even under
adversarial attack. Code and checkpoints are available at:
https://github.com/cywinski/SAeUron.Summary
AI-Generated Summary