UnUnlearning : L'oubli ne suffit pas à la régulation du contenu dans les IA génératives avancées

papers.abstract

L'effacement exact (exact unlearning) a été initialement introduit comme un mécanisme de confidentialité permettant à un utilisateur de retirer ses données des modèles d'apprentissage automatique sur demande. Peu après, des schémas approximatifs ont été proposés pour atténuer les coûts impraticables associés à l'effacement exact. Plus récemment, l'effacement est souvent discuté comme une approche pour supprimer des connaissances inadmissibles, c'est-à-dire des connaissances que le modèle ne devrait pas posséder, telles que des informations protégées par des droits d'auteur non autorisés, inexactes ou malveillantes. L'idée est que si le modèle ne possède pas une certaine capacité malveillante, il ne peut pas être utilisé à des fins malveillantes associées. Dans cet article, nous revisitons le paradigme dans lequel l'effacement est utilisé pour les grands modèles de langage (LLMs) et mettons en évidence une incohérence sous-jacente découlant de l'apprentissage en contexte. L'effacement peut être un mécanisme de contrôle efficace pour la phase d'entraînement, mais il n'empêche pas le modèle d'accomplir un acte inadmissible lors de l'inférence. Nous introduisons un concept de réintroduction (ununlearning), où les connaissances effacées sont réintroduites en contexte, rendant effectivement le modèle capable de se comporter comme s'il connaissait les connaissances oubliées. En conséquence, nous soutenons qu'un filtrage de contenu pour les connaissances inadmissibles sera nécessaire et que même les schémas d'effacement exact ne suffisent pas pour une régulation efficace du contenu. Nous discutons de la faisabilité de la réintroduction pour les LLMs modernes et examinons les implications plus larges.

English

Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

UnUnlearning : L'oubli ne suffit pas à la régulation du contenu dans les IA génératives avancées

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

papers.abstract

Support