Desaprendizado de Modelos de Linguagem de Grande Escala via Prompts com Embeddings Corrompidos

Resumo

Modelos de linguagem de grande escala (LLMs) avançaram para abranger um extenso conhecimento em diversos domínios. No entanto, controlar o que um modelo de linguagem de grande escala não deve saber é importante para garantir alinhamento e, consequentemente, uso seguro. Entretanto, desaprender conhecimento de um LLM de forma precisa e eficiente continua desafiador devido ao potencial dano colateral causado pela fronteira difusa entre retenção e esquecimento, e aos grandes requisitos computacionais para otimização em modelos de última geração com centenas de bilhões de parâmetros. Neste trabalho, apresentamos os Prompts Embedding-COrrupted (ECO), uma estrutura leve de desaprendizagem para modelos de linguagem de grande escala que aborda tanto os desafios do emaranhado de conhecimento quanto da eficiência do desaprendizado. Em vez de depender do próprio LLM para desaprender, impomos um estado de desaprendizado durante a inferência, utilizando um classificador de prompts para identificar e proteger prompts a serem esquecidos. Aprendemos corrupções adicionadas aos embeddings de prompts via otimização de ordem zero em direção ao objetivo de desaprendizado offline e corrompemos prompts sinalizados pelo classificador durante a inferência. Descobrimos que esses prompts com embeddings corrompidos não apenas levam a saídas desejáveis que satisfazem o objetivo de desaprendizado, mas também se aproximam bastante da saída de um modelo que nunca foi treinado nos dados destinados ao esquecimento. Através de extensos experimentos em desaprendizado, demonstramos a superioridade de nosso método em alcançar um desaprendizado promissor com quase zero efeitos colaterais em domínios gerais e em domínios intimamente relacionados aos desaprendidos. Além disso, destacamos a escalabilidade de nosso método para 100 LLMs, variando de 0,5B a 236B parâmetros, sem custo adicional à medida que o número de parâmetros aumenta.

English

Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a large language model should not know is important for ensuring alignment and thus safe use. However, accurately and efficiently unlearning knowledge from an LLM remains challenging due to the potential collateral damage caused by the fuzzy boundary between retention and forgetting, and the large computational requirements for optimization across state-of-the-art models with hundreds of billions of parameters. In this work, we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning framework for large language models to address both the challenges of knowledge entanglement and unlearning efficiency. Instead of relying on the LLM itself to unlearn, we enforce an unlearned state during inference by employing a prompt classifier to identify and safeguard prompts to forget. We learn corruptions added to prompt embeddings via zeroth order optimization toward the unlearning objective offline and corrupt prompts flagged by the classifier during inference. We find that these embedding-corrupted prompts not only lead to desirable outputs that satisfy the unlearning objective but also closely approximate the output from a model that has never been trained on the data intended for forgetting. Through extensive experiments on unlearning, we demonstrate the superiority of our method in achieving promising unlearning at nearly zero side effects in general domains and domains closely related to the unlearned ones. Additionally, we highlight the scalability of our method to 100 LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the number of parameters increases.

Desaprendizado de Modelos de Linguagem de Grande Escala via Prompts com Embeddings Corrompidos

Large Language Model Unlearning via Embedding-Corrupted Prompts

Resumo

Support