Desaprendizagem: A desaprendizagem não é suficiente para a regulação de conteúdo em IA generativa avançada.

Resumo

O desaprendizado exato foi inicialmente introduzido como um mecanismo de privacidade que permitia a um usuário retirar seus dados dos modelos de aprendizado de máquina mediante solicitação. Pouco tempo depois, esquemas inexatos foram propostos para mitigar os custos impraticáveis associados ao desaprendizado exato. Mais recentemente, o desaprendizado é frequentemente discutido como uma abordagem para a remoção de conhecimento inadmissível, ou seja, conhecimento que o modelo não deve possuir, como informações não licenciadas por direitos autorais, imprecisas ou maliciosas. A promessa é que se o modelo não possui uma determinada capacidade maliciosa, então ele não pode ser usado para o propósito malicioso associado. Neste artigo, revisitamos o paradigma no qual o desaprendizado é utilizado em Modelos de Linguagem Grandes (LLMs) e destacamos uma inconsistência subjacente decorrente do aprendizado em contexto. O desaprendizado pode ser um mecanismo de controle eficaz para a fase de treinamento, no entanto, ele não impede o modelo de realizar uma ação inadmissível durante a inferência. Introduzimos o conceito de desdesaprendizado, onde o conhecimento desaprendido é reintroduzido em contexto, tornando efetivamente o modelo capaz de se comportar como se conhecesse o conhecimento esquecido. Como resultado, argumentamos que será necessária a filtragem de conteúdo para conhecimento inadmissível e mesmo os esquemas de desaprendizado exato não são suficientes para uma regulamentação de conteúdo eficaz. Discutimos a viabilidade do desdesaprendizado para os LLMs modernos e examinamos as implicações mais amplas.

English

Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

Desaprendizagem: A desaprendizagem não é suficiente para a regulação de conteúdo em IA generativa avançada.

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

Resumo

Support