Désapprentissage des grands modèles de langage via des prompts à embeddings corrompus

Résumé

Les grands modèles de langage (LLMs) ont progressé pour englober des connaissances étendues dans divers domaines. Cependant, contrôler ce qu'un grand modèle de langage ne devrait pas savoir est crucial pour garantir l'alignement et ainsi une utilisation sûre. Néanmoins, désapprendre de manière précise et efficace des connaissances d'un LLM reste un défi en raison des dommages collatéraux potentiels causés par la frontière floue entre la rétention et l'oubli, ainsi que des importantes exigences computationnelles pour l'optimisation à travers les modèles de pointe comportant des centaines de milliards de paramètres. Dans ce travail, nous présentons les prompts Embedding-COrrupted (ECO), un cadre léger de désapprentissage pour les grands modèles de langage afin de relever les défis de l'enchevêtrement des connaissances et de l'efficacité du désapprentissage. Au lieu de s'appuyer sur le LLM lui-même pour désapprendre, nous imposons un état de désapprentissage pendant l'inférence en utilisant un classificateur de prompts pour identifier et protéger les prompts à oublier. Nous apprenons des corruptions ajoutées aux embeddings de prompts via une optimisation d'ordre zéro vers l'objectif de désapprentissage hors ligne, et nous corrompons les prompts signalés par le classificateur pendant l'inférence. Nous constatons que ces prompts corrompus au niveau des embeddings non seulement conduisent à des sorties souhaitables qui satisfont l'objectif de désapprentissage, mais se rapprochent également étroitement de la sortie d'un modèle qui n'a jamais été entraîné sur les données destinées à être oubliées. À travers des expériences approfondies sur le désapprentissage, nous démontrons la supériorité de notre méthode pour atteindre un désapprentissage prometteur avec presque aucun effet secondaire dans les domaines généraux et les domaines étroitement liés à ceux désappris. De plus, nous mettons en évidence l'évolutivité de notre méthode pour 100 LLMs, allant de 0,5B à 236B paramètres, sans coût supplémentaire à mesure que le nombre de paramètres augmente.

English

Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a large language model should not know is important for ensuring alignment and thus safe use. However, accurately and efficiently unlearning knowledge from an LLM remains challenging due to the potential collateral damage caused by the fuzzy boundary between retention and forgetting, and the large computational requirements for optimization across state-of-the-art models with hundreds of billions of parameters. In this work, we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning framework for large language models to address both the challenges of knowledge entanglement and unlearning efficiency. Instead of relying on the LLM itself to unlearn, we enforce an unlearned state during inference by employing a prompt classifier to identify and safeguard prompts to forget. We learn corruptions added to prompt embeddings via zeroth order optimization toward the unlearning objective offline and corrupt prompts flagged by the classifier during inference. We find that these embedding-corrupted prompts not only lead to desirable outputs that satisfy the unlearning objective but also closely approximate the output from a model that has never been trained on the data intended for forgetting. Through extensive experiments on unlearning, we demonstrate the superiority of our method in achieving promising unlearning at nearly zero side effects in general domains and domains closely related to the unlearned ones. Additionally, we highlight the scalability of our method to 100 LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the number of parameters increases.

Désapprentissage des grands modèles de langage via des prompts à embeddings corrompus

Large Language Model Unlearning via Embedding-Corrupted Prompts

Résumé

Summary

Support

Support