Desaprendizado de Modelos de Linguagem de Grande Escala via Prompts com Embeddings Corrompidos
Large Language Model Unlearning via Embedding-Corrupted Prompts
June 12, 2024
Autores: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) avançaram para abranger um extenso conhecimento em diversos domínios. No entanto, controlar o que um modelo de linguagem de grande escala não deve saber é importante para garantir alinhamento e, consequentemente, uso seguro. Entretanto, desaprender conhecimento de um LLM de forma precisa e eficiente continua desafiador devido ao potencial dano colateral causado pela fronteira difusa entre retenção e esquecimento, e aos grandes requisitos computacionais para otimização em modelos de última geração com centenas de bilhões de parâmetros. Neste trabalho, apresentamos os Prompts Embedding-COrrupted (ECO), uma estrutura leve de desaprendizagem para modelos de linguagem de grande escala que aborda tanto os desafios do emaranhado de conhecimento quanto da eficiência do desaprendizado. Em vez de depender do próprio LLM para desaprender, impomos um estado de desaprendizado durante a inferência, utilizando um classificador de prompts para identificar e proteger prompts a serem esquecidos. Aprendemos corrupções adicionadas aos embeddings de prompts via otimização de ordem zero em direção ao objetivo de desaprendizado offline e corrompemos prompts sinalizados pelo classificador durante a inferência. Descobrimos que esses prompts com embeddings corrompidos não apenas levam a saídas desejáveis que satisfazem o objetivo de desaprendizado, mas também se aproximam bastante da saída de um modelo que nunca foi treinado nos dados destinados ao esquecimento. Através de extensos experimentos em desaprendizado, demonstramos a superioridade de nosso método em alcançar um desaprendizado promissor com quase zero efeitos colaterais em domínios gerais e em domínios intimamente relacionados aos desaprendidos. Além disso, destacamos a escalabilidade de nosso método para 100 LLMs, variando de 0,5B a 236B parâmetros, sem custo adicional à medida que o número de parâmetros aumenta.
English
Large language models (LLMs) have advanced to encompass extensive knowledge
across diverse domains. Yet controlling what a large language model should not
know is important for ensuring alignment and thus safe use. However, accurately
and efficiently unlearning knowledge from an LLM remains challenging due to the
potential collateral damage caused by the fuzzy boundary between retention and
forgetting, and the large computational requirements for optimization across
state-of-the-art models with hundreds of billions of parameters. In this work,
we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning
framework for large language models to address both the challenges of knowledge
entanglement and unlearning efficiency. Instead of relying on the LLM itself to
unlearn, we enforce an unlearned state during inference by employing a prompt
classifier to identify and safeguard prompts to forget. We learn corruptions
added to prompt embeddings via zeroth order optimization toward the unlearning
objective offline and corrupt prompts flagged by the classifier during
inference. We find that these embedding-corrupted prompts not only lead to
desirable outputs that satisfy the unlearning objective but also closely
approximate the output from a model that has never been trained on the data
intended for forgetting. Through extensive experiments on unlearning, we
demonstrate the superiority of our method in achieving promising unlearning at
nearly zero side effects in general domains and domains closely related to the
unlearned ones. Additionally, we highlight the scalability of our method to 100
LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the
number of parameters increases.