ChatPaper.aiChatPaper

Les SAE peuvent améliorer le désapprentissage : Autoencodeurs Sparse Dynamiques comme garde-fous pour un désapprentissage précis dans les LLM

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

April 11, 2025
Auteurs: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI

Résumé

Le désapprentissage machine est une approche prometteuse pour améliorer la sécurité des modèles de langage (LLM) en supprimant les connaissances indésirables du modèle. Cependant, les méthodes de désapprentissage basées sur les gradients souffrent de problèmes tels que des coûts de calcul élevés, une instabilité des hyperparamètres, une faible capacité de désapprentissage séquentiel, une vulnérabilité aux attaques de réapprentissage, une faible efficacité des données et un manque d'interprétabilité. Bien que les autoencodeurs parcimonieux (Sparse Autoencoders, SAE) soient bien adaptés pour améliorer ces aspects en permettant un désapprentissage ciblé basé sur les activations, les approches précédentes sont moins performantes que les méthodes basées sur les gradients. Ce travail démontre que, contrairement à ces résultats antérieurs, les SAE peuvent considérablement améliorer le désapprentissage lorsqu'ils sont utilisés de manière dynamique. Nous introduisons les Dynamic DAE Guardrails (DSG), une nouvelle méthode de désapprentissage de précision qui exploite une sélection de caractéristiques rigoureuse et un classifieur dynamique. Nos expériences montrent que DSG surpasse largement les principales méthodes de désapprentissage, atteignant un meilleur compromis entre oubli et utilité. DSG résout les principaux inconvénients des approches basées sur les gradients pour le désapprentissage -- offrant une efficacité et une stabilité de calcul améliorées, des performances robustes dans le désapprentissage séquentiel, une résistance accrue aux attaques de réapprentissage, une meilleure efficacité des données y compris dans des contextes zero-shot, et un désapprentissage plus interprétable.
English
Machine unlearning is a promising approach to improve LLM safety by removing unwanted knowledge from the model. However, prevailing gradient-based unlearning methods suffer from issues such as high computational costs, hyperparameter instability, poor sequential unlearning capability, vulnerability to relearning attacks, low data efficiency, and lack of interpretability. While Sparse Autoencoders are well-suited to improve these aspects by enabling targeted activation-based unlearning, prior approaches underperform gradient-based methods. This work demonstrates that, contrary to these earlier findings, SAEs can significantly improve unlearning when employed dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel method for precision unlearning that leverages principled feature selection and a dynamic classifier. Our experiments show DSG substantially outperforms leading unlearning methods, achieving superior forget-utility trade-offs. DSG addresses key drawbacks of gradient-based approaches for unlearning -- offering enhanced computational efficiency and stability, robust performance in sequential unlearning, stronger resistance to relearning attacks, better data efficiency including zero-shot settings, and more interpretable unlearning.

Summary

AI-Generated Summary

PDF42April 14, 2025