Desaprendizaje de Modelos de Lenguaje Grande mediante Indicaciones con Incrustaciones Corruptas

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado hasta abarcar un conocimiento extenso en diversos dominios. Sin embargo, controlar lo que un modelo de lenguaje de gran escala no debería saber es importante para garantizar la alineación y, por lo tanto, un uso seguro. No obstante, eliminar conocimiento de un LLM de manera precisa y eficiente sigue siendo un desafío debido al posible daño colateral causado por el límite difuso entre la retención y el olvido, así como por los grandes requisitos computacionales necesarios para optimizar modelos de última generación con cientos de miles de millones de parámetros. En este trabajo, presentamos los Embedding-COrrupted (ECO) Prompts, un marco ligero para la eliminación de conocimiento en modelos de lenguaje de gran escala que aborda tanto los desafíos del entrelazamiento del conocimiento como la eficiencia en la eliminación. En lugar de depender del propio LLM para eliminar conocimiento, aplicamos un estado de olvido durante la inferencia mediante el uso de un clasificador de prompts para identificar y proteger los prompts que deben olvidarse. Aprendemos corrupciones añadidas a los embeddings de los prompts mediante optimización de orden cero hacia el objetivo de eliminación de manera offline, y corrompemos los prompts marcados por el clasificador durante la inferencia. Descubrimos que estos prompts con embeddings corrompidos no solo generan salidas deseables que satisfacen el objetivo de eliminación, sino que también se aproximan estrechamente a la salida de un modelo que nunca fue entrenado con los datos destinados al olvido. A través de experimentos exhaustivos sobre la eliminación de conocimiento, demostramos la superioridad de nuestro método para lograr una eliminación prometedora con casi cero efectos secundarios en dominios generales y en dominios estrechamente relacionados con los que se desea olvidar. Además, destacamos la escalabilidad de nuestro método en 100 LLMs, que van desde 0.5B hasta 236B parámetros, sin incurrir en costos adicionales a medida que aumenta el número de parámetros.

English

Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a large language model should not know is important for ensuring alignment and thus safe use. However, accurately and efficiently unlearning knowledge from an LLM remains challenging due to the potential collateral damage caused by the fuzzy boundary between retention and forgetting, and the large computational requirements for optimization across state-of-the-art models with hundreds of billions of parameters. In this work, we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning framework for large language models to address both the challenges of knowledge entanglement and unlearning efficiency. Instead of relying on the LLM itself to unlearn, we enforce an unlearned state during inference by employing a prompt classifier to identify and safeguard prompts to forget. We learn corruptions added to prompt embeddings via zeroth order optimization toward the unlearning objective offline and corrupt prompts flagged by the classifier during inference. We find that these embedding-corrupted prompts not only lead to desirable outputs that satisfy the unlearning objective but also closely approximate the output from a model that has never been trained on the data intended for forgetting. Through extensive experiments on unlearning, we demonstrate the superiority of our method in achieving promising unlearning at nearly zero side effects in general domains and domains closely related to the unlearned ones. Additionally, we highlight the scalability of our method to 100 LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the number of parameters increases.

Desaprendizaje de Modelos de Lenguaje Grande mediante Indicaciones con Incrustaciones Corruptas

Large Language Model Unlearning via Embedding-Corrupted Prompts

Resumen

Summary

Support

Support