ZeroUnlearn : Désapprentissage de connaissances en few-shot dans les grands modèles de langage

Résumé

Les grands modèles de langage conservent inévitablement des informations sensibles, définies comme des entrées pouvant induire des générations nuisibles, en raison de leur entraînement sur de vastes corpus web, ce qui soulève des préoccupations en matière de confidentialité et de sécurité. Les méthodes existantes de désapprentissage automatique reposent principalement sur le réentraînement ou un réglage fin agressif, qui sont soit coûteux en calcul, soit susceptibles de dégrader les connaissances connexes et l'utilité globale du modèle. Dans ce travail, nous reformulons le désapprentissage automatique comme un problème de remappage précis des connaissances via l'édition de modèle. Nous proposons ZeroUnlearn, un cadre de désapprentissage en quelques exemples. Il écrase les entrées sensibles en les mappant vers un état cible neutre et en supprimant leurs représentations originales. ZeroUnlearn impose une orthogonalité représentationnelle via une mise à jour multiplicative des paramètres avec une solution de forme fermée, permettant un désapprentissage efficace et ciblé. Nous étendons ensuite ZeroUnlearn à une variante basée sur le gradient pour le désapprentissage multi-échantillons. Les expériences montrent que notre approche surpasse les références existantes tout en préservant l'utilité générale du modèle. Notre code est disponible sur github : https://github.com/XMUDeepLIT/ZeroUnlearn.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.