ZeroUnlearn: Few-shot kennisontleren in grote taalmodellen

Samenvatting

Grote taalmodellen behouden onvermijdelijk gevoelige informatie, gedefinieerd als invoer die schadelijke generaties kan veroorzaken, vanwege training op massale webcorpora, wat zorgen oproept over privacy en veiligheid. Bestaande methoden voor machinaal afleren vertrouwen voornamelijk op hertraining of agressieve fine-tuning, die ofwel rekenkundig duur zijn ofwel geneigd zijn om gerelateerde kennis en algemene modelnuttigheid aan te tasten. In dit werk herformuleren we machinaal afleren als een precies probleem van kennishertoewijzing via modelbewerking. We stellen ZeroUnlearn voor, een few-shot aflerkader. Het overschrijft gevoelige invoer door deze naar een neutrale doeltoestand te mappen en hun oorspronkelijke representaties te verwijderen. ZeroUnlearn dwingt representatieorthogonaliteit af via een multiplicatieve parameterupdate met een gesloten-vormoplossing, wat efficiënt en gericht afleren mogelijk maakt. We breiden ZeroUnlearn verder uit naar een op gradiënten gebaseerde variant voor afleren met meerdere voorbeelden. Experimenten tonen aan dat onze aanpak beter presteert dan bestaande baselines, terwijl de algemene modelnuttigheid behouden blijft. Onze code is beschikbaar op GitHub: https://github.com/XMUDeepLIT/ZeroUnlearn.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.