SAE's kunnen het afleren verbeteren: Dynamische Sparse Autoencoder Beveiligingsmaatregelen voor precies afleren in LLM's
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
April 11, 2025
Auteurs: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI
Samenvatting
Machine unlearning is een veelbelovende aanpak om de veiligheid van LLM's te verbeteren door ongewenste kennis uit het model te verwijderen. Echter, gangbare gradient-gebaseerde unlearning-methoden kampen met problemen zoals hoge rekenkosten, hyperparameter-instabiliteit, beperkte sequentiële unlearning-capaciteit, kwetsbaarheid voor herleer-aanvallen, lage data-efficiëntie en een gebrek aan interpreteerbaarheid. Hoewel Sparse Autoencoders geschikt zijn om deze aspecten te verbeteren door gerichte activatie-gebaseerde unlearning mogelijk te maken, presteren eerdere benaderingen slechter dan gradient-gebaseerde methoden. Dit werk toont aan dat, in tegenstelling tot deze eerdere bevindingen, SAE's unlearning aanzienlijk kunnen verbeteren wanneer ze dynamisch worden ingezet. We introduceren Dynamic DAE Guardrails (DSG), een nieuwe methode voor precisie-unlearning die gebruikmaakt van principiële feature-selectie en een dynamische classifier. Onze experimenten tonen aan dat DSG aanzienlijk beter presteert dan toonaangevende unlearning-methoden, met superieure afwegingen tussen vergeten en nut. DSG adresseert belangrijke nadelen van gradient-gebaseerde benaderingen voor unlearning – het biedt verbeterde rekenkundige efficiëntie en stabiliteit, robuuste prestaties bij sequentiële unlearning, sterkere weerstand tegen herleer-aanvallen, betere data-efficiëntie inclusief zero-shot-instellingen, en meer interpreteerbare unlearning.
English
Machine unlearning is a promising approach to improve LLM safety by removing
unwanted knowledge from the model. However, prevailing gradient-based
unlearning methods suffer from issues such as high computational costs,
hyperparameter instability, poor sequential unlearning capability,
vulnerability to relearning attacks, low data efficiency, and lack of
interpretability. While Sparse Autoencoders are well-suited to improve these
aspects by enabling targeted activation-based unlearning, prior approaches
underperform gradient-based methods. This work demonstrates that, contrary to
these earlier findings, SAEs can significantly improve unlearning when employed
dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel
method for precision unlearning that leverages principled feature selection and
a dynamic classifier. Our experiments show DSG substantially outperforms
leading unlearning methods, achieving superior forget-utility trade-offs. DSG
addresses key drawbacks of gradient-based approaches for unlearning -- offering
enhanced computational efficiency and stability, robust performance in
sequential unlearning, stronger resistance to relearning attacks, better data
efficiency including zero-shot settings, and more interpretable unlearning.Summary
AI-Generated Summary