Großes Sprachmodell Vergessen durch Verfälschte Einbettungsanfragen
Large Language Model Unlearning via Embedding-Corrupted Prompts
June 12, 2024
Autoren: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben sich weiterentwickelt, um umfangreiches Wissen in verschiedenen Bereichen zu umfassen. Die Kontrolle darüber, was ein großes Sprachmodell nicht wissen sollte, ist jedoch wichtig, um Ausrichtung und somit sichere Nutzung zu gewährleisten. Die präzise und effiziente Entfernung von Wissen aus einem LLM bleibt jedoch aufgrund der potenziellen Kollateralschäden, die durch die unscharfe Grenze zwischen Beibehalten und Vergessen verursacht werden, sowie der hohen Rechenanforderungen für die Optimierung von Spitzenmodellen mit Hunderten von Milliarden Parametern eine Herausforderung. In dieser Arbeit stellen wir Embedding-Corrupted (ECO) Prompts vor, ein leichtgewichtiges Entfernungsframework für große Sprachmodelle, um sowohl den Herausforderungen der Wissensverflechtung als auch der Effizienz des Entfernens zu begegnen. Anstatt sich auf das LLM selbst zu verlassen, um zu vergessen, erzwingen wir einen vergessenen Zustand während der Inferenz, indem wir einen Prompt-Klassifizierer einsetzen, um Prompts zu identifizieren und zu schützen, die vergessen werden sollen. Wir lernen Korruptionen, die den Prompt-Embeddings hinzugefügt werden, offline über Nullter-Ordnung-Optimierung in Richtung des Entfernungsziels und korrupte Prompts, die während der Inferenz vom Klassifizierer markiert werden. Wir stellen fest, dass diese embedding-korrupten Prompts nicht nur zu wünschenswerten Ausgaben führen, die das Entfernungsziel erfüllen, sondern auch die Ausgabe eines Modells eng approximieren, das nie mit den Daten trainiert wurde, die vergessen werden sollen. Durch umfangreiche Experimente zum Entfernen zeigen wir die Überlegenheit unserer Methode bei der Erzielung vielversprechender Entfernungen mit nahezu keinen Nebenwirkungen in allgemeinen Bereichen und Bereichen, die eng mit den zu vergessenden Bereichen verbunden sind. Darüber hinaus heben wir die Skalierbarkeit unserer Methode auf 100 LLMs hervor, die von 0,5B bis 236B Parametern reichen, ohne zusätzliche Kosten zu verursachen, wenn die Anzahl der Parameter zunimmt.
English
Large language models (LLMs) have advanced to encompass extensive knowledge
across diverse domains. Yet controlling what a large language model should not
know is important for ensuring alignment and thus safe use. However, accurately
and efficiently unlearning knowledge from an LLM remains challenging due to the
potential collateral damage caused by the fuzzy boundary between retention and
forgetting, and the large computational requirements for optimization across
state-of-the-art models with hundreds of billions of parameters. In this work,
we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning
framework for large language models to address both the challenges of knowledge
entanglement and unlearning efficiency. Instead of relying on the LLM itself to
unlearn, we enforce an unlearned state during inference by employing a prompt
classifier to identify and safeguard prompts to forget. We learn corruptions
added to prompt embeddings via zeroth order optimization toward the unlearning
objective offline and corrupt prompts flagged by the classifier during
inference. We find that these embedding-corrupted prompts not only lead to
desirable outputs that satisfy the unlearning objective but also closely
approximate the output from a model that has never been trained on the data
intended for forgetting. Through extensive experiments on unlearning, we
demonstrate the superiority of our method in achieving promising unlearning at
nearly zero side effects in general domains and domains closely related to the
unlearned ones. Additionally, we highlight the scalability of our method to 100
LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the
number of parameters increases.Summary
AI-Generated Summary