SAEs können das Verlernen verbessern: Dynamische Sparse Autoencoder als Schutzmechanismen für präzises Verlernen in LLMs
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
April 11, 2025
Autoren: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI
Zusammenfassung
Maschinelles Verlernen ist ein vielversprechender Ansatz, um die Sicherheit von LLMs zu verbessern, indem unerwünschtes Wissen aus dem Modell entfernt wird. Allerdings leiden vorherrschende gradientenbasierte Verlernmethoden unter Problemen wie hohen Rechenkosten, Hyperparameter-Instabilität, schlechter sequenzieller Verlernfähigkeit, Anfälligkeit für Wiedererlernangriffe, geringer Dateneffizienz und mangelnder Interpretierbarkeit. Während Sparse Autoencoder gut geeignet sind, diese Aspekte zu verbessern, indem sie gezieltes aktivierungsbasiertes Verlernen ermöglichen, schneiden bisherige Ansätze schlechter ab als gradientenbasierte Methoden. Diese Arbeit zeigt, dass im Gegensatz zu diesen früheren Erkenntnissen SAEs das Verlernen signifikant verbessern können, wenn sie dynamisch eingesetzt werden. Wir stellen Dynamic DAE Guardrails (DSG) vor, eine neuartige Methode für präzises Verlernen, die auf prinzipieller Merkmalsauswahl und einem dynamischen Klassifikator basiert. Unsere Experimente zeigen, dass DSG führende Verlernmethoden deutlich übertrifft und überlegene Kompromisse zwischen Vergessen und Nützlichkeit erreicht. DSG adressiert zentrale Nachteile gradientenbasierter Ansätze für das Verlernen – es bietet verbesserte Recheneffizienz und Stabilität, robuste Leistung bei sequenziellem Verlernen, stärkeren Widerstand gegen Wiedererlernangriffe, bessere Dateneffizienz einschließlich Zero-Shot-Szenarien und interpretierbareres Verlernen.
English
Machine unlearning is a promising approach to improve LLM safety by removing
unwanted knowledge from the model. However, prevailing gradient-based
unlearning methods suffer from issues such as high computational costs,
hyperparameter instability, poor sequential unlearning capability,
vulnerability to relearning attacks, low data efficiency, and lack of
interpretability. While Sparse Autoencoders are well-suited to improve these
aspects by enabling targeted activation-based unlearning, prior approaches
underperform gradient-based methods. This work demonstrates that, contrary to
these earlier findings, SAEs can significantly improve unlearning when employed
dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel
method for precision unlearning that leverages principled feature selection and
a dynamic classifier. Our experiments show DSG substantially outperforms
leading unlearning methods, achieving superior forget-utility trade-offs. DSG
addresses key drawbacks of gradient-based approaches for unlearning -- offering
enhanced computational efficiency and stability, robust performance in
sequential unlearning, stronger resistance to relearning attacks, better data
efficiency including zero-shot settings, and more interpretable unlearning.Summary
AI-Generated Summary