Los SAE pueden mejorar el desaprendizaje: Autoencoder Disperso Dinámico como Barreras de Precisión para el Desaprendizaje en LLMs

Resumen

El desaprendizaje automático es un enfoque prometedor para mejorar la seguridad de los LLM al eliminar conocimientos no deseados del modelo. Sin embargo, los métodos predominantes de desaprendizaje basados en gradientes presentan problemas como altos costos computacionales, inestabilidad de hiperparámetros, capacidad limitada para el desaprendizaje secuencial, vulnerabilidad a ataques de reaprendizaje, baja eficiencia en el uso de datos y falta de interpretabilidad. Aunque los Autoencoders Dispersos (SAE) son adecuados para mejorar estos aspectos al permitir un desaprendizaje dirigido basado en activaciones, enfoques anteriores han tenido un rendimiento inferior a los métodos basados en gradientes. Este trabajo demuestra que, contrariamente a estos hallazgos previos, los SAE pueden mejorar significativamente el desaprendizaje cuando se emplean de manera dinámica. Introducimos Dynamic DAE Guardrails (DSG), un método novedoso para el desaprendizaje de precisión que aprovecha la selección de características basada en principios y un clasificador dinámico. Nuestros experimentos muestran que DSG supera sustancialmente a los principales métodos de desaprendizaje, logrando un equilibrio superior entre olvido y utilidad. DSG aborda las principales desventajas de los enfoques basados en gradientes para el desaprendizaje, ofreciendo una mayor eficiencia y estabilidad computacional, un rendimiento robusto en el desaprendizaje secuencial, una mayor resistencia a los ataques de reaprendizaje, una mejor eficiencia en el uso de datos, incluidos entornos de cero disparos, y un desaprendizaje más interpretable.

English

Machine unlearning is a promising approach to improve LLM safety by removing unwanted knowledge from the model. However, prevailing gradient-based unlearning methods suffer from issues such as high computational costs, hyperparameter instability, poor sequential unlearning capability, vulnerability to relearning attacks, low data efficiency, and lack of interpretability. While Sparse Autoencoders are well-suited to improve these aspects by enabling targeted activation-based unlearning, prior approaches underperform gradient-based methods. This work demonstrates that, contrary to these earlier findings, SAEs can significantly improve unlearning when employed dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel method for precision unlearning that leverages principled feature selection and a dynamic classifier. Our experiments show DSG substantially outperforms leading unlearning methods, achieving superior forget-utility trade-offs. DSG addresses key drawbacks of gradient-based approaches for unlearning -- offering enhanced computational efficiency and stability, robust performance in sequential unlearning, stronger resistance to relearning attacks, better data efficiency including zero-shot settings, and more interpretable unlearning.

Los SAE pueden mejorar el desaprendizaje: Autoencoder Disperso Dinámico como Barreras de Precisión para el Desaprendizaje en LLMs

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Resumen

Support