SAEs Podem Melhorar o Desaprendizado: Autoencoders Esparsos Dinâmicos como Barreiras de Segurança para o Desaprendizado de Precisão em LLMs

Resumo

O desaprendizado de máquina é uma abordagem promissora para melhorar a segurança de LLMs (Large Language Models) ao remover conhecimentos indesejados do modelo. No entanto, os métodos predominantes de desaprendizado baseados em gradiente sofrem com problemas como altos custos computacionais, instabilidade de hiperparâmetros, capacidade limitada de desaprendizado sequencial, vulnerabilidade a ataques de reaprendizado, baixa eficiência de dados e falta de interpretabilidade. Embora os Autoencoders Esparsos (Sparse Autoencoders - SAEs) sejam bem adequados para melhorar esses aspectos ao permitir o desaprendizado direcionado baseado em ativações, abordagens anteriores têm desempenho inferior aos métodos baseados em gradiente. Este trabalho demonstra que, ao contrário dessas descobertas anteriores, os SAEs podem melhorar significativamente o desaprendizado quando empregados dinamicamente. Introduzimos os Dynamic DAE Guardrails (DSG), um método novo para desaprendizado de precisão que utiliza seleção de características fundamentada e um classificador dinâmico. Nossos experimentos mostram que o DSG supera substancialmente os principais métodos de desaprendizado, alcançando melhores trade-offs entre esquecimento e utilidade. O DSG aborda as principais desvantagens das abordagens baseadas em gradiente para desaprendizado -- oferecendo maior eficiência e estabilidade computacional, desempenho robusto em desaprendizado sequencial, resistência mais forte a ataques de reaprendizado, melhor eficiência de dados, incluindo configurações zero-shot, e desaprendizado mais interpretável.

English

Machine unlearning is a promising approach to improve LLM safety by removing unwanted knowledge from the model. However, prevailing gradient-based unlearning methods suffer from issues such as high computational costs, hyperparameter instability, poor sequential unlearning capability, vulnerability to relearning attacks, low data efficiency, and lack of interpretability. While Sparse Autoencoders are well-suited to improve these aspects by enabling targeted activation-based unlearning, prior approaches underperform gradient-based methods. This work demonstrates that, contrary to these earlier findings, SAEs can significantly improve unlearning when employed dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel method for precision unlearning that leverages principled feature selection and a dynamic classifier. Our experiments show DSG substantially outperforms leading unlearning methods, achieving superior forget-utility trade-offs. DSG addresses key drawbacks of gradient-based approaches for unlearning -- offering enhanced computational efficiency and stability, robust performance in sequential unlearning, stronger resistance to relearning attacks, better data efficiency including zero-shot settings, and more interpretable unlearning.

SAEs Podem Melhorar o Desaprendizado: Autoencoders Esparsos Dinâmicos como Barreiras de Segurança para o Desaprendizado de Precisão em LLMs

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Resumo

Summary

Support

Support