ZeroUnlearn: Few-Shot-Wissensentlernen in großen Sprachmodellen

Zusammenfassung

Große Sprachmodelle bewahren unweigerlich sensible Informationen – definiert als Eingaben, die schädliche Generierungen auslösen können – auf, da sie auf riesigen Webkorpora trainiert werden, was Bedenken hinsichtlich Privatsphäre und Sicherheit aufwirft. Bisherige Methoden des maschinellen Vergessens beruhen hauptsächlich auf Nachtraining oder aggressivem Feintuning, die entweder rechenintensiv sind oder dazu neigen, verwandtes Wissen und die allgemeine Nutzbarkeit des Modells zu beeinträchtigen. In dieser Arbeit reformulieren wir maschinelles Vergessen als ein präzises Wissenszuordnungsproblem mittels Modellbearbeitung. Wir schlagen ZeroUnlearn vor, ein Few-Shot-Vergessensframework. Es überschreibt sensible Eingaben, indem es sie auf einen neutralen Zielzustand abbildet und ihre ursprünglichen Repräsentationen entfernt. ZeroUnlearn erzwingt repräsentationale Orthogonalität durch eine multiplikative Parameteraktualisierung mit einer Lösung in geschlossener Form, was effizientes und gezieltes Vergessen ermöglicht. Wir erweitern ZeroUnlearn zudem zu einer gradientenbasierten Variante für das Vergessen mehrerer Beispiele. Experimente zeigen, dass unser Ansatz bestehende Baselines übertrifft und dabei die allgemeine Nutzbarkeit des Modells bewahrt. Unser Code ist auf GitHub verfügbar: https://github.com/XMUDeepLIT/ZeroUnlearn.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.