Disapprendimento dei Modelli Linguistici di Grande Scala tramite Prompt con Embedding Corrotto
Large Language Model Unlearning via Embedding-Corrupted Prompts
June 12, 2024
Autori: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno progredito fino a comprendere una vasta conoscenza in diversi domini. Tuttavia, controllare ciò che un grande modello linguistico non dovrebbe sapere è importante per garantire l'allineamento e quindi un uso sicuro. Tuttavia, dimenticare accuratamente ed efficientemente la conoscenza da un LLM rimane una sfida a causa del potenziale danno collaterale causato dal confine sfocato tra ritenzione e oblio, e dei grandi requisiti computazionali per l'ottimizzazione attraverso modelli all'avanguardia con centinaia di miliardi di parametri. In questo lavoro, presentiamo Embedding-COrrupted (ECO) Prompts, un framework leggero per la dimenticanza nei grandi modelli linguistici per affrontare sia le sfide dell'intreccio della conoscenza che dell'efficienza della dimenticanza. Invece di affidarsi all'LLM stesso per dimenticare, imponiamo uno stato di dimenticanza durante l'inferenza utilizzando un classificatore di prompt per identificare e proteggere i prompt da dimenticare. Apprendiamo corruzioni aggiunte agli embedding dei prompt tramite l'ottimizzazione di ordine zero verso l'obiettivo di dimenticanza offline e corrompiamo i prompt segnalati dal classificatore durante l'inferenza. Troviamo che questi prompt con embedding corrotti non solo portano a output desiderabili che soddisfano l'obiettivo di dimenticanza, ma si avvicinano anche all'output di un modello che non è mai stato addestrato sui dati destinati all'oblio. Attraverso esperimenti estesi sulla dimenticanza, dimostriamo la superiorità del nostro metodo nel raggiungere una promettente dimenticanza con quasi zero effetti collaterali in domini generali e domini strettamente correlati a quelli dimenticati. Inoltre, evidenziamo la scalabilità del nostro metodo a 100 LLM, che vanno da 0,5B a 236B parametri, senza costi aggiuntivi all'aumentare del numero di parametri.
English
Large language models (LLMs) have advanced to encompass extensive knowledge
across diverse domains. Yet controlling what a large language model should not
know is important for ensuring alignment and thus safe use. However, accurately
and efficiently unlearning knowledge from an LLM remains challenging due to the
potential collateral damage caused by the fuzzy boundary between retention and
forgetting, and the large computational requirements for optimization across
state-of-the-art models with hundreds of billions of parameters. In this work,
we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning
framework for large language models to address both the challenges of knowledge
entanglement and unlearning efficiency. Instead of relying on the LLM itself to
unlearn, we enforce an unlearned state during inference by employing a prompt
classifier to identify and safeguard prompts to forget. We learn corruptions
added to prompt embeddings via zeroth order optimization toward the unlearning
objective offline and corrupt prompts flagged by the classifier during
inference. We find that these embedding-corrupted prompts not only lead to
desirable outputs that satisfy the unlearning objective but also closely
approximate the output from a model that has never been trained on the data
intended for forgetting. Through extensive experiments on unlearning, we
demonstrate the superiority of our method in achieving promising unlearning at
nearly zero side effects in general domains and domains closely related to the
unlearned ones. Additionally, we highlight the scalability of our method to 100
LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the
number of parameters increases.