SAE가 언러닝을 개선할 수 있다: LLM의 정밀 언러닝을 위한 동적 희소 오토인코더 가드레일
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
April 11, 2025
저자: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI
초록
머신 언러닝(Machine Unlearning)은 모델에서 원치 않는 지식을 제거함으로써 대형 언어 모델(LLM)의 안전성을 향상시키는 유망한 접근법입니다. 그러나 현재 널리 사용되는 그래디언트 기반 언러닝 방법은 높은 계산 비용, 하이퍼파라미터 불안정성, 순차적 언러닝 능력의 부족, 재학습 공격에 대한 취약성, 낮은 데이터 효율성, 그리고 해석 가능성의 부재와 같은 문제를 안고 있습니다. 희소 오토인코더(Sparse Autoencoders, SAEs)는 타겟팅된 활성화 기반 언러닝을 가능하게 함으로써 이러한 측면들을 개선하는 데 적합하지만, 기존의 접근법들은 그래디언트 기반 방법들에 비해 성능이 떨어졌습니다. 본 연구는 이러한 초기 연구 결과와 달리, SAEs가 동적으로 활용될 때 언러닝을 크게 개선할 수 있음을 보여줍니다. 우리는 원칙 기반 특징 선택과 동적 분류기를 활용한 정밀 언러닝을 위한 새로운 방법인 Dynamic DAE Guardrails(DSG)를 소개합니다. 실험 결과, DSG는 주요 언러닝 방법들을 크게 능가하며 우수한 망각-유용성 균형을 달성합니다. DSG는 그래디언트 기반 언러닝 접근법의 주요 단점들을 해결합니다. 이는 향상된 계산 효율성과 안정성, 순차적 언러닝에서의 견고한 성능, 재학습 공격에 대한 강한 저항력, 제로샷 설정을 포함한 더 나은 데이터 효율성, 그리고 더 해석 가능한 언러닝을 제공합니다.
English
Machine unlearning is a promising approach to improve LLM safety by removing
unwanted knowledge from the model. However, prevailing gradient-based
unlearning methods suffer from issues such as high computational costs,
hyperparameter instability, poor sequential unlearning capability,
vulnerability to relearning attacks, low data efficiency, and lack of
interpretability. While Sparse Autoencoders are well-suited to improve these
aspects by enabling targeted activation-based unlearning, prior approaches
underperform gradient-based methods. This work demonstrates that, contrary to
these earlier findings, SAEs can significantly improve unlearning when employed
dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel
method for precision unlearning that leverages principled feature selection and
a dynamic classifier. Our experiments show DSG substantially outperforms
leading unlearning methods, achieving superior forget-utility trade-offs. DSG
addresses key drawbacks of gradient-based approaches for unlearning -- offering
enhanced computational efficiency and stability, robust performance in
sequential unlearning, stronger resistance to relearning attacks, better data
efficiency including zero-shot settings, and more interpretable unlearning.Summary
AI-Generated Summary