Désapprentissage pratique pour les modèles de langage à grande échelle
Practical Unlearning for Large Language Models
July 14, 2024
Auteurs: Chongyang Gao, Lixu Wang, Chenkai Weng, Xiao Wang, Qi Zhu
cs.AI
Résumé
Bien que les modèles de langage de grande taille (LLM) aient démontré des performances impressionnantes dans divers domaines et tâches, leurs problèmes de sécurité sont devenus de plus en plus préoccupants. Le désapprentissage machine (Machine Unlearning, MU) est apparu comme une solution prometteuse pour résoudre ces problèmes en éliminant l'influence des données indésirables sur le modèle cible sans compromettre son utilité dans d'autres aspects. Le MU suppose généralement un accès complet aux données d'entraînement originales pour préserver l'utilité, ce qui est difficile à réaliser dans le désapprentissage des LLM. Les méthodes existantes de désapprentissage des LLM supposent souvent un accès aux données les plus affectées par le désapprentissage des données indésirables. Cependant, cette hypothèse sous-estime l'imbrication entre les différentes capacités des LLM et ignore les limitations d'accès aux données dues à divers problèmes. De plus, ces méthodes de désapprentissage des LLM ne prennent pas suffisamment en compte que les demandes de désapprentissage dans les scénarios réels émergent continuellement. Pour surmonter ces défis et réaliser un désapprentissage pratique des LLM, nous proposons le cadre O3. Le cadre O3 inclut un détecteur de données hors distribution (Out-Of-Distribution, OOD) pour mesurer la similarité entre les données d'entrée et les données à désapprendre, ainsi qu'un adaptateur orthogonal de faible rang (LoRA) pour désapprendre continuellement les données demandées. Le détecteur OOD est entraîné avec une nouvelle fonction de perte d'entropie contrastive et utilise un mécanisme de notation agrégée par couches local-global. Le LoRA orthogonal permet une séparation des paramètres entre les demandes de désapprentissage continues. Pendant l'inférence, notre cadre O3 peut décider intelligemment si et dans quelle mesure charger le LoRA de désapprentissage en fonction des prédictions du détecteur OOD. Notamment, l'efficacité de O3 ne repose sur aucune donnée conservée. Nous avons mené des expériences approfondies sur O3 et les méthodes de désapprentissage des LLM les plus avancées sur trois tâches et sept ensembles de données. Les résultats indiquent que O3 atteint systématiquement le meilleur compromis entre l'efficacité du désapprentissage et la préservation de l'utilité, en particulier face à des demandes de désapprentissage continues.
English
While LLMs have demonstrated impressive performance across various domains
and tasks, their security issues have become increasingly severe. Machine
unlearning (MU) has emerged as a promising solution to address these issues by
removing the influence of undesired data on the target model without
compromising its utility in other aspects. MU typically assumes full access to
the original training data to preserve utility, which is difficult to achieve
in LLM unlearning. Existing LLM unlearning methods often assume access to data
most affected by undesired data unlearning. However, this assumption
underestimates the entanglement among various LLM capabilities and ignores data
access limitations due to various issues. Moreover, these LLM unlearning
methods do not sufficiently consider that unlearning requests in real-world
scenarios are continuously emerging. To overcome these challenges and achieve
practical LLM unlearning, we propose the O3 framework. The O3 framework
includes an Out-Of-Distribution (OOD) detector to measure the similarity
between input and unlearning data, and an Orthogonal low-rank adapter (LoRA)
for continuously unlearning requested data. The OOD detector is trained with a
novel contrastive entropy loss and utilizes a local-global layer-aggregated
scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among
continual unlearning requests. During inference, our O3 framework can smartly
decide whether and to what extent to load the unlearning LoRA based on the OOD
detector's predictions. Notably, O3's effectiveness does not rely on any
retained data. We conducted extensive experiments on O3 and state-of-the-art
LLM unlearning methods across three tasks and seven datasets. The results
indicate that O3 consistently achieves the best trade-off between unlearning
effectiveness and utility preservation, especially when facing continuous
unlearning requests.Summary
AI-Generated Summary