ChatPaper.aiChatPaper

SAeUron: Desaprendizagem de Conceitos Interpretáveis em Modelos de Difusão com Autoencoders Esparsos

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

January 29, 2025
Autores: Bartosz Cywiński, Kamil Deja
cs.AI

Resumo

Os modelos de difusão, embora poderosos, podem inadvertidamente gerar conteúdo prejudicial ou indesejado, levantando preocupações éticas e de segurança significativas. Abordagens recentes de desaprendizado de máquina oferecem soluções potenciais, mas frequentemente carecem de transparência, tornando difícil entender as mudanças que introduzem no modelo base. Neste trabalho, apresentamos o SAeUron, um método inovador que aproveita as características aprendidas por autoencoders esparsos (SAEs) para remover conceitos indesejados em modelos de difusão texto-imagem. Primeiramente, demonstramos que os SAEs, treinados de forma não supervisionada em ativações de múltiplos passos de remoção de ruído do modelo de difusão, capturam características esparsas e interpretáveis correspondentes a conceitos específicos. Com base nisso, propomos um método de seleção de características que possibilita intervenções precisas nas ativações do modelo para bloquear conteúdo direcionado, preservando o desempenho geral. A avaliação com o competitivo benchmark UnlearnCanvas em desaprendizado de objetos e estilos destaca o desempenho de ponta do SAeUron. Além disso, demonstramos que com um único SAE, podemos remover múltiplos conceitos simultaneamente e que, ao contrário de outros métodos, o SAeUron mitiga a possibilidade de gerar conteúdo indesejado, mesmo sob ataque adversarial. O código e os checkpoints estão disponíveis em: https://github.com/cywinski/SAeUron.
English
Diffusion models, while powerful, can inadvertently generate harmful or undesirable content, raising significant ethical and safety concerns. Recent machine unlearning approaches offer potential solutions but often lack transparency, making it difficult to understand the changes they introduce to the base model. In this work, we introduce SAeUron, a novel method leveraging features learned by sparse autoencoders (SAEs) to remove unwanted concepts in text-to-image diffusion models. First, we demonstrate that SAEs, trained in an unsupervised manner on activations from multiple denoising timesteps of the diffusion model, capture sparse and interpretable features corresponding to specific concepts. Building on this, we propose a feature selection method that enables precise interventions on model activations to block targeted content while preserving overall performance. Evaluation with the competitive UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's state-of-the-art performance. Moreover, we show that with a single SAE, we can remove multiple concepts simultaneously and that in contrast to other methods, SAeUron mitigates the possibility of generating unwanted content, even under adversarial attack. Code and checkpoints are available at: https://github.com/cywinski/SAeUron.

Summary

AI-Generated Summary

PDF62February 3, 2025