ChatPaper.aiChatPaper

Отмена обучения большой языковой модели с помощью искаженных вставок.

Large Language Model Unlearning via Embedding-Corrupted Prompts

June 12, 2024
Авторы: Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
cs.AI

Аннотация

Большие языковые модели (LLM) продвинулись в охвате обширных знаний в различных областях. Однако контроль над тем, что большая языковая модель не должна знать, важен для обеспечения соответствия и, следовательно, безопасного использования. Тем не менее, точное и эффективное забывание знаний из LLM остается сложной задачей из-за потенциального коллатерального ущерба, вызванного размытой границей между сохранением и забыванием, а также большими вычислительными требованиями для оптимизации современных моделей с сотнями миллиардов параметров. В данной работе мы представляем Embedding-COrrupted (ECO) Prompts, легковесную систему забывания для больших языковых моделей, чтобы решить как проблемы переплетения знаний, так и эффективности забывания. Вместо того чтобы полагаться на саму LLM для забывания, мы обеспечиваем состояние забытости во время вывода, используя классификатор подсказок для идентификации и защиты подсказок для забывания. Мы обучаем порчу, добавленную к внедренным подсказкам, с помощью оптимизации нулевого порядка к цели забывания оффлайн и портим подсказки, выявленные классификатором, во время вывода. Мы обнаружили, что эти подсказки с порчей внедрения не только приводят к желаемым результатам, удовлетворяющим цели забывания, но и тесно приближаются к результатам модели, которая никогда не обучалась на данных, предназначенных для забывания. Через обширные эксперименты по забыванию мы демонстрируем превосходство нашего метода в достижении многообещающего забывания с практически нулевыми побочными эффектами в общих областях и областях, тесно связанных с забытыми. Кроме того, мы подчеркиваем масштабируемость нашего метода до 100 LLM, варьирующихся от 0,5 млрд до 236 млрд параметров, не неся дополнительных затрат по мере увеличения числа параметров.
English
Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a large language model should not know is important for ensuring alignment and thus safe use. However, accurately and efficiently unlearning knowledge from an LLM remains challenging due to the potential collateral damage caused by the fuzzy boundary between retention and forgetting, and the large computational requirements for optimization across state-of-the-art models with hundreds of billions of parameters. In this work, we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning framework for large language models to address both the challenges of knowledge entanglement and unlearning efficiency. Instead of relying on the LLM itself to unlearn, we enforce an unlearned state during inference by employing a prompt classifier to identify and safeguard prompts to forget. We learn corruptions added to prompt embeddings via zeroth order optimization toward the unlearning objective offline and corrupt prompts flagged by the classifier during inference. We find that these embedding-corrupted prompts not only lead to desirable outputs that satisfy the unlearning objective but also closely approximate the output from a model that has never been trained on the data intended for forgetting. Through extensive experiments on unlearning, we demonstrate the superiority of our method in achieving promising unlearning at nearly zero side effects in general domains and domains closely related to the unlearned ones. Additionally, we highlight the scalability of our method to 100 LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the number of parameters increases.

Summary

AI-Generated Summary

PDF100December 8, 2024