UnUnlearning: L'unlearning non è sufficiente per la regolamentazione dei contenuti nell'IA generativa avanzata
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI
June 27, 2024
Autori: Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan
cs.AI
Abstract
L'eliminazione esatta (exact unlearning) è stata inizialmente introdotta come meccanismo di privacy che consentiva a un utente di ritirare i propri dati dai modelli di machine learning su richiesta. Poco dopo, sono stati proposti schemi approssimati (inexact schemes) per mitigare i costi impraticabili associati all'eliminazione esatta. Più recentemente, l'eliminazione è spesso discussa come un approccio per la rimozione di conoscenze non consentite, ovvero conoscenze che il modello non dovrebbe possedere, come informazioni coperte da copyright non autorizzate, inaccurate o malevole. La promessa è che se il modello non possiede una determinata capacità malevola, allora non può essere utilizzato per lo scopo malevolo associato. In questo articolo, esaminiamo nuovamente il paradigma in cui l'eliminazione viene utilizzata nei Large Language Models (LLM) e mettiamo in luce un'incongruenza sottostante derivante dall'apprendimento contestuale (in-context learning). L'eliminazione può essere un meccanismo di controllo efficace per la fase di addestramento, ma non impedisce al modello di compiere un'azione non consentita durante l'inferenza. Introduciamo il concetto di "ununlearning", in cui la conoscenza eliminata viene reintrodotta contestualmente, rendendo di fatto il modello capace di comportarsi come se conoscesse la conoscenza dimenticata. Di conseguenza, sosteniamo che sarà necessario un filtraggio dei contenuti per le conoscenze non consentite e che persino gli schemi di eliminazione esatta non sono sufficienti per una regolamentazione efficace dei contenuti. Discutiamo la fattibilità dell'"ununlearning" per i moderni LLM ed esaminiamo le implicazioni più ampie.
English
Exact unlearning was first introduced as a privacy mechanism that allowed a
user to retract their data from machine learning models on request. Shortly
after, inexact schemes were proposed to mitigate the impractical costs
associated with exact unlearning. More recently unlearning is often discussed
as an approach for removal of impermissible knowledge i.e. knowledge that the
model should not possess such as unlicensed copyrighted, inaccurate, or
malicious information. The promise is that if the model does not have a certain
malicious capability, then it cannot be used for the associated malicious
purpose. In this paper we revisit the paradigm in which unlearning is used for
in Large Language Models (LLMs) and highlight an underlying inconsistency
arising from in-context learning. Unlearning can be an effective control
mechanism for the training phase, yet it does not prevent the model from
performing an impermissible act during inference. We introduce a concept of
ununlearning, where unlearned knowledge gets reintroduced in-context,
effectively rendering the model capable of behaving as if it knows the
forgotten knowledge. As a result, we argue that content filtering for
impermissible knowledge will be required and even exact unlearning schemes are
not enough for effective content regulation. We discuss feasibility of
ununlearning for modern LLMs and examine broader implications.