RepSelect : Désapprentissage robuste des LLM via la sélectivité des représentations

Résumé

Faire oublier profondément aux grands modèles de langage (LLMs) des connaissances et valeurs spécifiques sans sacrifier les capacités générales reste un défi central dans le désapprentissage. Cependant, les méthodes actuelles sont facilement inversées par le fine-tuning ou le few-shot prompting, ce qui suggère que leur oubli n'est que superficiel. Nous en identifions la cause profonde. Les méthodes existantes ciblent des représentations partagées à la fois avec l'ensemble conservé et le sous-espace récupéré par un attaquant par fine-tuning, ce qui rend le désapprentissage à la fois perturbateur pour les capacités générales et facile à inverser. Nous proposons RepSelect (Representation Selectivity), qui isole les représentations spécifiques à l'ensemble à oublier en aplatissant les composantes principales supérieures des gradients de poids avant chaque mise à jour, laissant les capacités générales intactes tout en limitant ce que le fine-tuning peut récupérer. Nous évaluons sur deux catégories d'oubli, les connaissances liées aux risques biologiques et les tendances abusives, et quatre familles de modèles couvrant les architectures denses et Mixture-of-Experts (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Comparé à cinq références populaires (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect obtient une réduction 4 à 50 fois plus importante de la précision des réponses après réapprentissage que la référence la plus forte, et est presque parfaitement robuste aux attaques de few-shot prompting. Cibler des représentations sélectives constitue donc une étape importante vers un oubli profond et robuste des LLM.

English

Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tuning or few-shot prompting, suggesting their forgetting is only shallow. We identify the root cause. Existing methods target representations shared with both the retain set and the subspace recovered by a fine-tuning attacker, making unlearning both disruptive to general capabilities and easy to reverse. We propose RepSelect (Representation Selectivity), isolates forget-set-specific representations by collapsing top principal components of weight gradients before each update, leaving general capabilities intact while limiting what fine-tuning can recover. We evaluate across two forget categories, biohazardous knowledge and abusive tendencies, and four model families spanning dense and Mixture-of-Experts architectures (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Compared to five popular baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect achieves a 4-50x larger reduction in post-relearning answer accuracy than the strongest baseline, and is near-perfectly robust to few-shot prompting attacks. Targeting selective representations is thus an important step towards deep and robust LLM forgetting.