ChatPaper.aiChatPaper

UnUnlearning: Verleren is niet voldoende voor inhoudsregulatie in geavanceerde generatieve AI

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

June 27, 2024
Auteurs: Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan
cs.AI

Samenvatting

Exact unlearning werd aanvankelijk geïntroduceerd als een privacymechanisme waarmee een gebruiker op verzoek hun gegevens uit machine learning-modellen kon terugtrekken. Kort daarna werden inexacte schema's voorgesteld om de onpraktische kosten van exact unlearning te verminderen. Meer recent wordt unlearning vaak besproken als een benadering voor het verwijderen van ontoelaatbare kennis, d.w.z. kennis die het model niet zou moeten bezitten, zoals ongelicentieerd auteursrechtelijk beschermd materiaal, onnauwkeurige of kwaadaardige informatie. Het idee is dat als het model een bepaalde kwaadaardige capaciteit niet heeft, het ook niet voor het bijbehorende kwaadaardige doel kan worden gebruikt. In dit artikel herzien we het paradigma waarin unlearning wordt gebruikt in Large Language Models (LLMs) en belichten we een onderliggende inconsistentie die voortkomt uit in-context learning. Unlearning kan een effectief controlemechanisme zijn voor de trainingsfase, maar het voorkomt niet dat het model tijdens de inferentie een ontoelaatbare handeling uitvoert. We introduceren het concept van ununlearning, waarbij ongeleerde kennis opnieuw wordt geïntroduceerd in-context, waardoor het model effectief in staat is zich te gedragen alsof het de vergeten kennis kent. Als gevolg hiervan stellen we dat contentfiltering voor ontoelaatbare kennis vereist zal zijn en dat zelfs exacte unlearning-schema's niet voldoende zijn voor effectieve contentregulering. We bespreken de haalbaarheid van ununlearning voor moderne LLMs en onderzoeken bredere implicaties.
English
Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.
PDF61February 8, 2026