Désapprentissage des grands modèles de langage via des prompts à embeddings corrompus
Large Language Model Unlearning via Embedding-Corrupted Prompts
June 12, 2024
Auteurs: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont progressé pour englober des connaissances étendues dans divers domaines. Cependant, contrôler ce qu'un grand modèle de langage ne devrait pas savoir est crucial pour garantir l'alignement et ainsi une utilisation sûre. Néanmoins, désapprendre de manière précise et efficace des connaissances d'un LLM reste un défi en raison des dommages collatéraux potentiels causés par la frontière floue entre la rétention et l'oubli, ainsi que des importantes exigences computationnelles pour l'optimisation à travers les modèles de pointe comportant des centaines de milliards de paramètres. Dans ce travail, nous présentons les prompts Embedding-COrrupted (ECO), un cadre léger de désapprentissage pour les grands modèles de langage afin de relever les défis de l'enchevêtrement des connaissances et de l'efficacité du désapprentissage. Au lieu de s'appuyer sur le LLM lui-même pour désapprendre, nous imposons un état de désapprentissage pendant l'inférence en utilisant un classificateur de prompts pour identifier et protéger les prompts à oublier. Nous apprenons des corruptions ajoutées aux embeddings de prompts via une optimisation d'ordre zéro vers l'objectif de désapprentissage hors ligne, et nous corrompons les prompts signalés par le classificateur pendant l'inférence. Nous constatons que ces prompts corrompus au niveau des embeddings non seulement conduisent à des sorties souhaitables qui satisfont l'objectif de désapprentissage, mais se rapprochent également étroitement de la sortie d'un modèle qui n'a jamais été entraîné sur les données destinées à être oubliées. À travers des expériences approfondies sur le désapprentissage, nous démontrons la supériorité de notre méthode pour atteindre un désapprentissage prometteur avec presque aucun effet secondaire dans les domaines généraux et les domaines étroitement liés à ceux désappris. De plus, nous mettons en évidence l'évolutivité de notre méthode pour 100 LLMs, allant de 0,5B à 236B paramètres, sans coût supplémentaire à mesure que le nombre de paramètres augmente.
English
Large language models (LLMs) have advanced to encompass extensive knowledge
across diverse domains. Yet controlling what a large language model should not
know is important for ensuring alignment and thus safe use. However, accurately
and efficiently unlearning knowledge from an LLM remains challenging due to the
potential collateral damage caused by the fuzzy boundary between retention and
forgetting, and the large computational requirements for optimization across
state-of-the-art models with hundreds of billions of parameters. In this work,
we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning
framework for large language models to address both the challenges of knowledge
entanglement and unlearning efficiency. Instead of relying on the LLM itself to
unlearn, we enforce an unlearned state during inference by employing a prompt
classifier to identify and safeguard prompts to forget. We learn corruptions
added to prompt embeddings via zeroth order optimization toward the unlearning
objective offline and corrupt prompts flagged by the classifier during
inference. We find that these embedding-corrupted prompts not only lead to
desirable outputs that satisfy the unlearning objective but also closely
approximate the output from a model that has never been trained on the data
intended for forgetting. Through extensive experiments on unlearning, we
demonstrate the superiority of our method in achieving promising unlearning at
nearly zero side effects in general domains and domains closely related to the
unlearned ones. Additionally, we highlight the scalability of our method to 100
LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the
number of parameters increases.Summary
AI-Generated Summary