Le désapprentissage des LLM devrait être indépendant de la forme.
LLM Unlearning Should Be Form-Independent
June 9, 2025
Auteurs: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI
Résumé
Le désapprentissage des modèles de langage de grande taille (LLM) vise à effacer ou supprimer les connaissances indésirables au sein du modèle, offrant ainsi une perspective prometteuse pour contrôler les informations nuisibles ou privées afin d’en prévenir l’utilisation abusive. Cependant, des études récentes mettent en lumière son efficacité limitée dans des scénarios réels, ce qui freine son adoption pratique. Dans cette étude, nous identifions un problème sous-jacent à de nombreux échecs en aval : l’efficacité des méthodes de désapprentissage existantes dépend fortement de la forme des échantillons d’entraînement et échoue fréquemment à généraliser à des expressions alternatives de la même connaissance. Nous caractérisons formellement ce problème comme un biais de dépendance à la forme et étudions systématiquement ses manifestations spécifiques à travers diverses tâches en aval. Pour quantifier sa prévalence et soutenir les recherches futures, nous introduisons ORT, un nouveau benchmark conçu pour évaluer la robustesse des méthodes de désapprentissage face aux variations dans l’expression des connaissances. Les résultats révèlent que le biais de dépendance à la forme est à la fois répandu et sévère parmi les techniques actuelles.
Nous soutenons que le désapprentissage des LLM devrait être indépendant de la forme pour répondre aux innombrables formes de tâches en aval rencontrées dans des scénarios critiques de sécurité réels. Dans cette optique, nous introduisons la Redirection de Concept de Rang Un (ROCR), une nouvelle méthode sans entraînement, comme une voie de solution prometteuse. ROCR effectue le désapprentissage en ciblant les invariants des tâches en aval, en particulier les concepts dangereux activés. Elle est capable de modifier les paramètres du modèle en quelques secondes pour rediriger la perception du modèle d’un concept cible spécifique à désapprendre vers un autre concept inoffensif. Des expériences approfondies démontrent que ROCR améliore significativement l’efficacité du désapprentissage par rapport aux méthodes traditionnelles tout en générant des sorties hautement naturelles.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable
knowledge within the model, offering promise for controlling harmful or private
information to prevent misuse. However, recent studies highlight its limited
efficacy in real-world scenarios, hindering practical adoption. In this study,
we identify a pervasive issue underlying many downstream failures: the
effectiveness of existing unlearning methods heavily depends on the form of
training samples and frequently fails to generalize to alternate expressions of
the same knowledge. We formally characterize this problem as Form-Dependent
Bias and systematically investigate its specific manifestation patterns across
various downstream tasks. To quantify its prevalence and support future
research, we introduce ORT, a novel benchmark designed to evaluate the
robustness of unlearning methods against variations in knowledge expression.
Results reveal that Form-Dependent Bias is both widespread and severe among
current techniques.
We argue that LLM unlearning should be form-independent to address the
endless forms of downstream tasks encountered in real-world security-critical
scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR),
a novel training-free method, as a promising solution path. ROCR performs
unlearning by targeting the invariants in downstream tasks, specifically the
activated dangerous concepts. It is capable of modifying model parameters
within seconds to redirect the model's perception of a specific unlearning
target concept to another harmless concept. Extensive experiments demonstrate
that ROCR significantly improves unlearning effectiveness compared to
traditional methods while generating highly natural outputs.