Los SAE pueden mejorar el desaprendizaje: Autoencoder Disperso Dinámico como Barreras de Precisión para el Desaprendizaje en LLMs
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
April 11, 2025
Autores: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI
Resumen
El desaprendizaje automático es un enfoque prometedor para mejorar la seguridad de los LLM al eliminar conocimientos no deseados del modelo. Sin embargo, los métodos predominantes de desaprendizaje basados en gradientes presentan problemas como altos costos computacionales, inestabilidad de hiperparámetros, capacidad limitada para el desaprendizaje secuencial, vulnerabilidad a ataques de reaprendizaje, baja eficiencia en el uso de datos y falta de interpretabilidad. Aunque los Autoencoders Dispersos (SAE) son adecuados para mejorar estos aspectos al permitir un desaprendizaje dirigido basado en activaciones, enfoques anteriores han tenido un rendimiento inferior a los métodos basados en gradientes. Este trabajo demuestra que, contrariamente a estos hallazgos previos, los SAE pueden mejorar significativamente el desaprendizaje cuando se emplean de manera dinámica. Introducimos Dynamic DAE Guardrails (DSG), un método novedoso para el desaprendizaje de precisión que aprovecha la selección de características basada en principios y un clasificador dinámico. Nuestros experimentos muestran que DSG supera sustancialmente a los principales métodos de desaprendizaje, logrando un equilibrio superior entre olvido y utilidad. DSG aborda las principales desventajas de los enfoques basados en gradientes para el desaprendizaje, ofreciendo una mayor eficiencia y estabilidad computacional, un rendimiento robusto en el desaprendizaje secuencial, una mayor resistencia a los ataques de reaprendizaje, una mejor eficiencia en el uso de datos, incluidos entornos de cero disparos, y un desaprendizaje más interpretable.
English
Machine unlearning is a promising approach to improve LLM safety by removing
unwanted knowledge from the model. However, prevailing gradient-based
unlearning methods suffer from issues such as high computational costs,
hyperparameter instability, poor sequential unlearning capability,
vulnerability to relearning attacks, low data efficiency, and lack of
interpretability. While Sparse Autoencoders are well-suited to improve these
aspects by enabling targeted activation-based unlearning, prior approaches
underperform gradient-based methods. This work demonstrates that, contrary to
these earlier findings, SAEs can significantly improve unlearning when employed
dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel
method for precision unlearning that leverages principled feature selection and
a dynamic classifier. Our experiments show DSG substantially outperforms
leading unlearning methods, achieving superior forget-utility trade-offs. DSG
addresses key drawbacks of gradient-based approaches for unlearning -- offering
enhanced computational efficiency and stability, robust performance in
sequential unlearning, stronger resistance to relearning attacks, better data
efficiency including zero-shot settings, and more interpretable unlearning.Summary
AI-Generated Summary