ChatPaper.aiChatPaper

SAeUron: Eliminación de Conceptos Interpretables en Modelos de Difusión con Autoencoders Dispersos

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

January 29, 2025
Autores: Bartosz Cywiński, Kamil Deja
cs.AI

Resumen

Los modelos de difusión, aunque poderosos, pueden generar inadvertidamente contenido dañino o no deseado, lo que plantea importantes preocupaciones éticas y de seguridad. Los enfoques recientes de desaprendizaje automático ofrecen posibles soluciones, pero a menudo carecen de transparencia, lo que dificulta comprender los cambios que introducen en el modelo base. En este trabajo, presentamos SAeUron, un método novedoso que aprovecha las características aprendidas por autoencoders dispersos (SAEs) para eliminar conceptos no deseados en modelos de difusión de texto a imagen. En primer lugar, demostramos que los SAEs, entrenados de manera no supervisada en activaciones de múltiples pasos de eliminación de ruido del modelo de difusión, capturan características dispersas e interpretables que corresponden a conceptos específicos. Basándonos en esto, proponemos un método de selección de características que permite intervenciones precisas en las activaciones del modelo para bloquear contenido específico mientras se preserva el rendimiento general. La evaluación con el competitivo benchmark UnlearnCanvas en desaprendizaje de objetos y estilos destaca el rendimiento de vanguardia de SAeUron. Además, demostramos que con un solo SAE podemos eliminar múltiples conceptos simultáneamente y que, a diferencia de otros métodos, SAeUron mitiga la posibilidad de generar contenido no deseado, incluso bajo un ataque adversarial. El código y los puntos de control están disponibles en: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or undesirable content, raising significant ethical and safety concerns. Recent machine unlearning approaches offer potential solutions but often lack transparency, making it difficult to understand the changes they introduce to the base model. In this work, we introduce SAeUron, a novel method leveraging features learned by sparse autoencoders (SAEs) to remove unwanted concepts in text-to-image diffusion models. First, we demonstrate that SAEs, trained in an unsupervised manner on activations from multiple denoising timesteps of the diffusion model, capture sparse and interpretable features corresponding to specific concepts. Building on this, we propose a feature selection method that enables precise interventions on model activations to block targeted content while preserving overall performance. Evaluation with the competitive UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's state-of-the-art performance. Moreover, we show that with a single SAE, we can remove multiple concepts simultaneously and that in contrast to other methods, SAeUron mitigates the possibility of generating unwanted content, even under adversarial attack. Code and checkpoints are available at: https://github.com/cywinski/SAeUron.

Summary

AI-Generated Summary

PDF62February 3, 2025