ZeroUnlearn: 대규모 언어 모델에서의 퓨샷 지식 언러닝

초록

대규모 언어 모델은 방대한 웹 코퍼스에서 학습되기 때문에 민감 정보(유해한 생성을 유발할 수 있는 입력으로 정의됨)를 필연적으로 보유하게 되며, 이는 프라이버시와 안전에 대한 우려를 제기한다. 기존의 기계 언러닝 방법은 주로 재학습이나 과격한 미세 조정에 의존하는데, 이는 계산 비용이 많이 들거나 관련 지식과 전반적인 모델 유용성을 저하시키기 쉽다. 본 연구에서는 기계 언러닝을 모델 편집을 통한 정밀한 지식 재매핑 문제로 재정의한다. 우리는 퓨샷 언러닝 프레임워크인 ZeroUnlearn을 제안한다. 이는 민감 입력을 중립적인 목표 상태에 매핑하고 원래의 표현을 제거함으로써 덮어쓴다. ZeroUnlearn은 닫힌 형태의 해법을 가진 곱셈적 매개변수 업데이트를 통해 표현적 직교성을 강제하여, 효율적이고 표적화된 언러닝을 가능하게 한다. 또한 다중 샘플 언러닝을 위해 ZeroUnlearn을 기울기 기반 변형으로 확장한다. 실험 결과, 우리의 접근 방식이 기존 베이스라인을 능가하면서 일반 모델 유용성을 보존함을 보여준다. 코드는 GitHub(https://github.com/XMUDeepLIT/ZeroUnlearn)에서 확인할 수 있다.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.