SAEs Podem Melhorar o Desaprendizado: Autoencoders Esparsos Dinâmicos como Barreiras de Segurança para o Desaprendizado de Precisão em LLMs
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
April 11, 2025
Autores: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI
Resumo
O desaprendizado de máquina é uma abordagem promissora para melhorar a segurança de LLMs (Large Language Models) ao remover conhecimentos indesejados do modelo. No entanto, os métodos predominantes de desaprendizado baseados em gradiente sofrem com problemas como altos custos computacionais, instabilidade de hiperparâmetros, capacidade limitada de desaprendizado sequencial, vulnerabilidade a ataques de reaprendizado, baixa eficiência de dados e falta de interpretabilidade. Embora os Autoencoders Esparsos (Sparse Autoencoders - SAEs) sejam bem adequados para melhorar esses aspectos ao permitir o desaprendizado direcionado baseado em ativações, abordagens anteriores têm desempenho inferior aos métodos baseados em gradiente. Este trabalho demonstra que, ao contrário dessas descobertas anteriores, os SAEs podem melhorar significativamente o desaprendizado quando empregados dinamicamente. Introduzimos os Dynamic DAE Guardrails (DSG), um método novo para desaprendizado de precisão que utiliza seleção de características fundamentada e um classificador dinâmico. Nossos experimentos mostram que o DSG supera substancialmente os principais métodos de desaprendizado, alcançando melhores trade-offs entre esquecimento e utilidade. O DSG aborda as principais desvantagens das abordagens baseadas em gradiente para desaprendizado -- oferecendo maior eficiência e estabilidade computacional, desempenho robusto em desaprendizado sequencial, resistência mais forte a ataques de reaprendizado, melhor eficiência de dados, incluindo configurações zero-shot, e desaprendizado mais interpretável.
English
Machine unlearning is a promising approach to improve LLM safety by removing
unwanted knowledge from the model. However, prevailing gradient-based
unlearning methods suffer from issues such as high computational costs,
hyperparameter instability, poor sequential unlearning capability,
vulnerability to relearning attacks, low data efficiency, and lack of
interpretability. While Sparse Autoencoders are well-suited to improve these
aspects by enabling targeted activation-based unlearning, prior approaches
underperform gradient-based methods. This work demonstrates that, contrary to
these earlier findings, SAEs can significantly improve unlearning when employed
dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel
method for precision unlearning that leverages principled feature selection and
a dynamic classifier. Our experiments show DSG substantially outperforms
leading unlearning methods, achieving superior forget-utility trade-offs. DSG
addresses key drawbacks of gradient-based approaches for unlearning -- offering
enhanced computational efficiency and stability, robust performance in
sequential unlearning, stronger resistance to relearning attacks, better data
efficiency including zero-shot settings, and more interpretable unlearning.Summary
AI-Generated Summary