Désapprentissage pratique pour les modèles de langage à grande échelle

papers.abstract

Bien que les modèles de langage de grande taille (LLM) aient démontré des performances impressionnantes dans divers domaines et tâches, leurs problèmes de sécurité sont devenus de plus en plus préoccupants. Le désapprentissage machine (Machine Unlearning, MU) est apparu comme une solution prometteuse pour résoudre ces problèmes en éliminant l'influence des données indésirables sur le modèle cible sans compromettre son utilité dans d'autres aspects. Le MU suppose généralement un accès complet aux données d'entraînement originales pour préserver l'utilité, ce qui est difficile à réaliser dans le désapprentissage des LLM. Les méthodes existantes de désapprentissage des LLM supposent souvent un accès aux données les plus affectées par le désapprentissage des données indésirables. Cependant, cette hypothèse sous-estime l'imbrication entre les différentes capacités des LLM et ignore les limitations d'accès aux données dues à divers problèmes. De plus, ces méthodes de désapprentissage des LLM ne prennent pas suffisamment en compte que les demandes de désapprentissage dans les scénarios réels émergent continuellement. Pour surmonter ces défis et réaliser un désapprentissage pratique des LLM, nous proposons le cadre O3. Le cadre O3 inclut un détecteur de données hors distribution (Out-Of-Distribution, OOD) pour mesurer la similarité entre les données d'entrée et les données à désapprendre, ainsi qu'un adaptateur orthogonal de faible rang (LoRA) pour désapprendre continuellement les données demandées. Le détecteur OOD est entraîné avec une nouvelle fonction de perte d'entropie contrastive et utilise un mécanisme de notation agrégée par couches local-global. Le LoRA orthogonal permet une séparation des paramètres entre les demandes de désapprentissage continues. Pendant l'inférence, notre cadre O3 peut décider intelligemment si et dans quelle mesure charger le LoRA de désapprentissage en fonction des prédictions du détecteur OOD. Notamment, l'efficacité de O3 ne repose sur aucune donnée conservée. Nous avons mené des expériences approfondies sur O3 et les méthodes de désapprentissage des LLM les plus avancées sur trois tâches et sept ensembles de données. Les résultats indiquent que O3 atteint systématiquement le meilleur compromis entre l'efficacité du désapprentissage et la préservation de l'utilité, en particulier face à des demandes de désapprentissage continues.

English

While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests.

Désapprentissage pratique pour les modèles de langage à grande échelle

Practical Unlearning for Large Language Models

papers.abstract

Support