ChatPaper.aiChatPaper

UnUnlernen: Das reine Unlernen reicht nicht aus für die Inhaltsregulierung in fortgeschrittener generativer KI.

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

June 27, 2024
Autoren: Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan
cs.AI

Zusammenfassung

Die genaue Entlernung wurde erstmals als Datenschutzmechanismus eingeführt, der es einem Benutzer ermöglichte, seine Daten auf Anfrage aus maschinellen Lernmodellen zurückzuziehen. Kurz darauf wurden ungenaue Schemata vorgeschlagen, um die unpraktischen Kosten, die mit der genauen Entlernung verbunden sind, zu mildern. In jüngerer Zeit wird Entlernen oft als Ansatz zur Entfernung unzulässigen Wissens diskutiert, d.h. Wissen, das das Modell nicht besitzen sollte, wie unlizenzierte urheberrechtlich geschützte, ungenaue oder bösartige Informationen. Das Versprechen besteht darin, dass, wenn das Modell nicht über eine bestimmte bösartige Fähigkeit verfügt, es nicht für den damit verbundenen bösartigen Zweck verwendet werden kann. In diesem Papier überdenken wir das Paradigma, in dem Entlernen für große Sprachmodelle (LLMs) verwendet wird, und heben eine zugrunde liegende Inkonsistenz hervor, die aus dem kontextbezogenen Lernen resultiert. Entlernen kann ein wirksamer Kontrollmechanismus für die Trainingsphase sein, verhindert jedoch nicht, dass das Modell während der Inferenz eine unzulässige Handlung ausführt. Wir führen ein Konzept des "Unentlernens" ein, bei dem entlerntes Wissen kontextbezogen wieder eingeführt wird und das Modell effektiv befähigt, sich so zu verhalten, als ob es das vergessene Wissen kennt. Folglich argumentieren wir, dass eine Inhaltsfilterung für unzulässiges Wissen erforderlich sein wird und selbst genaue Entlernungsschemata nicht ausreichen für eine effektive Inhaltsregulierung. Wir diskutieren die Machbarkeit des "Unentlernens" für moderne LLMs und untersuchen breitere Auswirkungen.
English
Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

Summary

AI-Generated Summary

PDF61November 28, 2024