SAeUron: Eliminación de Conceptos Interpretables en Modelos de Difusión con Autoencoders Dispersos
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
January 29, 2025
Autores: Bartosz Cywiński, Kamil Deja
cs.AI
Resumen
Los modelos de difusión, aunque poderosos, pueden generar inadvertidamente contenido dañino o no deseado, lo que plantea importantes preocupaciones éticas y de seguridad. Los enfoques recientes de desaprendizaje automático ofrecen posibles soluciones, pero a menudo carecen de transparencia, lo que dificulta comprender los cambios que introducen en el modelo base. En este trabajo, presentamos SAeUron, un método novedoso que aprovecha las características aprendidas por autoencoders dispersos (SAEs) para eliminar conceptos no deseados en modelos de difusión de texto a imagen. En primer lugar, demostramos que los SAEs, entrenados de manera no supervisada en activaciones de múltiples pasos de eliminación de ruido del modelo de difusión, capturan características dispersas e interpretables que corresponden a conceptos específicos. Basándonos en esto, proponemos un método de selección de características que permite intervenciones precisas en las activaciones del modelo para bloquear contenido específico mientras se preserva el rendimiento general. La evaluación con el competitivo benchmark UnlearnCanvas en desaprendizaje de objetos y estilos destaca el rendimiento de vanguardia de SAeUron. Además, demostramos que con un solo SAE podemos eliminar múltiples conceptos simultáneamente y que, a diferencia de otros métodos, SAeUron mitiga la posibilidad de generar contenido no deseado, incluso bajo un ataque adversarial. El código y los puntos de control están disponibles en: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or
undesirable content, raising significant ethical and safety concerns. Recent
machine unlearning approaches offer potential solutions but often lack
transparency, making it difficult to understand the changes they introduce to
the base model. In this work, we introduce SAeUron, a novel method leveraging
features learned by sparse autoencoders (SAEs) to remove unwanted concepts in
text-to-image diffusion models. First, we demonstrate that SAEs, trained in an
unsupervised manner on activations from multiple denoising timesteps of the
diffusion model, capture sparse and interpretable features corresponding to
specific concepts. Building on this, we propose a feature selection method that
enables precise interventions on model activations to block targeted content
while preserving overall performance. Evaluation with the competitive
UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's
state-of-the-art performance. Moreover, we show that with a single SAE, we can
remove multiple concepts simultaneously and that in contrast to other methods,
SAeUron mitigates the possibility of generating unwanted content, even under
adversarial attack. Code and checkpoints are available at:
https://github.com/cywinski/SAeUron.Summary
AI-Generated Summary