UnUnlearning: L'unlearning non è sufficiente per la regolamentazione dei contenuti nell'IA generativa avanzata

Abstract

L'eliminazione esatta (exact unlearning) è stata inizialmente introdotta come meccanismo di privacy che consentiva a un utente di ritirare i propri dati dai modelli di machine learning su richiesta. Poco dopo, sono stati proposti schemi approssimati (inexact schemes) per mitigare i costi impraticabili associati all'eliminazione esatta. Più recentemente, l'eliminazione è spesso discussa come un approccio per la rimozione di conoscenze non consentite, ovvero conoscenze che il modello non dovrebbe possedere, come informazioni coperte da copyright non autorizzate, inaccurate o malevole. La promessa è che se il modello non possiede una determinata capacità malevola, allora non può essere utilizzato per lo scopo malevolo associato. In questo articolo, esaminiamo nuovamente il paradigma in cui l'eliminazione viene utilizzata nei Large Language Models (LLM) e mettiamo in luce un'incongruenza sottostante derivante dall'apprendimento contestuale (in-context learning). L'eliminazione può essere un meccanismo di controllo efficace per la fase di addestramento, ma non impedisce al modello di compiere un'azione non consentita durante l'inferenza. Introduciamo il concetto di "ununlearning", in cui la conoscenza eliminata viene reintrodotta contestualmente, rendendo di fatto il modello capace di comportarsi come se conoscesse la conoscenza dimenticata. Di conseguenza, sosteniamo che sarà necessario un filtraggio dei contenuti per le conoscenze non consentite e che persino gli schemi di eliminazione esatta non sono sufficienti per una regolamentazione efficace dei contenuti. Discutiamo la fattibilità dell'"ununlearning" per i moderni LLM ed esaminiamo le implicazioni più ampie.

English

Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

UnUnlearning: L'unlearning non è sufficiente per la regolamentazione dei contenuti nell'IA generativa avanzata

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

Abstract

Support