ChatPaper.aiChatPaper

Отзабывание: Отзабывание недостаточно для регулирования контента в передовом генеративном искусственном интеллекте

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

June 27, 2024
Авторы: Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan
cs.AI

Аннотация

Точное забывание было впервые представлено как механизм конфиденциальности, позволяющий пользователю отозвать свои данные из моделей машинного обучения по запросу. Вскоре были предложены неточные схемы для смягчения непрактичных затрат, связанных с точным забыванием. В настоящее время забывание часто обсуждается как подход к удалению недопустимых знаний, т.е. знаний, которыми модель не должна обладать, таких как нелицензионные авторские права, неточная или вредоносная информация. Обещается, что если модель не обладает определенной вредоносной способностью, то она не может использоваться для связанной с этим вредоносной цели. В данной статье мы пересматриваем парадигму, в которой забывание используется для Больших Языковых Моделей (БЯМ) и выделяем противоречие, возникающее из контекстного обучения. Забывание может быть эффективным механизмом управления на этапе обучения, однако оно не предотвращает модель от совершения недопустимого действия во время вывода. Мы вводим концепцию обратного забывания, где забытые знания вновь вводятся в контексте, что позволяет модели действовать так, будто она знает забытые знания. В результате мы утверждаем, что для эффективного регулирования контента потребуется фильтрация недопустимых знаний, и даже точные схемы забывания недостаточны для эффективного регулирования контента. Мы обсуждаем возможность обратного забывания для современных БЯМ и рассматриваем более широкие последствия.
English
Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

Summary

AI-Generated Summary

PDF61November 28, 2024