ChatPaper.aiChatPaper

Groot Taalmodel Verleren via Embedding-Gecorrumpeerde Prompts

Large Language Model Unlearning via Embedding-Corrupted Prompts

June 12, 2024
Auteurs: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) hebben zich ontwikkeld om uitgebreide kennis over diverse domeinen te omvatten. Toch is het bepalen wat een groot taalmodel niet zou moeten weten belangrijk om afstemming en daarmee veilig gebruik te waarborgen. Het nauwkeurig en efficiënt afleren van kennis uit een LLM blijft echter een uitdaging vanwege de mogelijke nevenschade veroorzaakt door de vage grens tussen behoud en vergeten, en de grote rekenkundige vereisten voor optimalisatie in state-of-the-art modellen met honderden miljarden parameters. In dit werk presenteren we Embedding-COrrupted (ECO) Prompts, een lichtgewicht afleren-framework voor grote taalmmodellen om zowel de uitdagingen van kennisverstrengeling als de efficiëntie van afleren aan te pakken. In plaats van te vertrouwen op het LLM zelf om kennis af te leren, dwingen we een afgeleerde staat af tijdens inferentie door gebruik te maken van een promptclassificator om prompts te identificeren en te beschermen die vergeten moeten worden. We leren corrupties toegevoegd aan prompt-embeddings via nulde-orde optimalisatie gericht op het afleren-doel offline en corrumperen prompts die door de classificator zijn gemarkeerd tijdens inferentie. We ontdekken dat deze embedding-gecorrumpeerde prompts niet alleen leiden tot gewenste uitkomsten die voldoen aan het afleren-doel, maar ook dicht in de buurt komen van de uitkomst van een model dat nooit is getraind op de data die vergeten moet worden. Door uitgebreide experimenten met afleren demonstreren we de superioriteit van onze methode in het bereiken van veelbelovend afleren met bijna geen neveneffecten in algemene domeinen en domeinen die nauw verwant zijn aan de afgeleerde domeinen. Daarnaast benadrukken we de schaalbaarheid van onze methode naar 100 LLMs, variërend van 0,5B tot 236B parameters, zonder extra kosten naarmate het aantal parameters toeneemt.
English
Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a large language model should not know is important for ensuring alignment and thus safe use. However, accurately and efficiently unlearning knowledge from an LLM remains challenging due to the potential collateral damage caused by the fuzzy boundary between retention and forgetting, and the large computational requirements for optimization across state-of-the-art models with hundreds of billions of parameters. In this work, we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning framework for large language models to address both the challenges of knowledge entanglement and unlearning efficiency. Instead of relying on the LLM itself to unlearn, we enforce an unlearned state during inference by employing a prompt classifier to identify and safeguard prompts to forget. We learn corruptions added to prompt embeddings via zeroth order optimization toward the unlearning objective offline and corrupt prompts flagged by the classifier during inference. We find that these embedding-corrupted prompts not only lead to desirable outputs that satisfy the unlearning objective but also closely approximate the output from a model that has never been trained on the data intended for forgetting. Through extensive experiments on unlearning, we demonstrate the superiority of our method in achieving promising unlearning at nearly zero side effects in general domains and domains closely related to the unlearned ones. Additionally, we highlight the scalability of our method to 100 LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the number of parameters increases.
PDF90December 8, 2024