Desaprendizaje de Modelos de Lenguaje Grande mediante Indicaciones con Incrustaciones Corruptas
Large Language Model Unlearning via Embedding-Corrupted Prompts
June 12, 2024
Autores: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado hasta abarcar un conocimiento extenso en diversos dominios. Sin embargo, controlar lo que un modelo de lenguaje de gran escala no debería saber es importante para garantizar la alineación y, por lo tanto, un uso seguro. No obstante, eliminar conocimiento de un LLM de manera precisa y eficiente sigue siendo un desafío debido al posible daño colateral causado por el límite difuso entre la retención y el olvido, así como por los grandes requisitos computacionales necesarios para optimizar modelos de última generación con cientos de miles de millones de parámetros. En este trabajo, presentamos los Embedding-COrrupted (ECO) Prompts, un marco ligero para la eliminación de conocimiento en modelos de lenguaje de gran escala que aborda tanto los desafíos del entrelazamiento del conocimiento como la eficiencia en la eliminación. En lugar de depender del propio LLM para eliminar conocimiento, aplicamos un estado de olvido durante la inferencia mediante el uso de un clasificador de prompts para identificar y proteger los prompts que deben olvidarse. Aprendemos corrupciones añadidas a los embeddings de los prompts mediante optimización de orden cero hacia el objetivo de eliminación de manera offline, y corrompemos los prompts marcados por el clasificador durante la inferencia. Descubrimos que estos prompts con embeddings corrompidos no solo generan salidas deseables que satisfacen el objetivo de eliminación, sino que también se aproximan estrechamente a la salida de un modelo que nunca fue entrenado con los datos destinados al olvido. A través de experimentos exhaustivos sobre la eliminación de conocimiento, demostramos la superioridad de nuestro método para lograr una eliminación prometedora con casi cero efectos secundarios en dominios generales y en dominios estrechamente relacionados con los que se desea olvidar. Además, destacamos la escalabilidad de nuestro método en 100 LLMs, que van desde 0.5B hasta 236B parámetros, sin incurrir en costos adicionales a medida que aumenta el número de parámetros.
English
Large language models (LLMs) have advanced to encompass extensive knowledge
across diverse domains. Yet controlling what a large language model should not
know is important for ensuring alignment and thus safe use. However, accurately
and efficiently unlearning knowledge from an LLM remains challenging due to the
potential collateral damage caused by the fuzzy boundary between retention and
forgetting, and the large computational requirements for optimization across
state-of-the-art models with hundreds of billions of parameters. In this work,
we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning
framework for large language models to address both the challenges of knowledge
entanglement and unlearning efficiency. Instead of relying on the LLM itself to
unlearn, we enforce an unlearned state during inference by employing a prompt
classifier to identify and safeguard prompts to forget. We learn corruptions
added to prompt embeddings via zeroth order optimization toward the unlearning
objective offline and corrupt prompts flagged by the classifier during
inference. We find that these embedding-corrupted prompts not only lead to
desirable outputs that satisfy the unlearning objective but also closely
approximate the output from a model that has never been trained on the data
intended for forgetting. Through extensive experiments on unlearning, we
demonstrate the superiority of our method in achieving promising unlearning at
nearly zero side effects in general domains and domains closely related to the
unlearned ones. Additionally, we highlight the scalability of our method to 100
LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the
number of parameters increases.Summary
AI-Generated Summary