UnUnlearning: El desaprendizaje no es suficiente para la regulación de contenido en IA generativa avanzada

Resumen

El desaprendizaje exacto se introdujo inicialmente como un mecanismo de privacidad que permitía a un usuario retirar sus datos de los modelos de aprendizaje automático a petición. Poco después, se propusieron esquemas inexactos para mitigar los costos poco prácticos asociados con el desaprendizaje exacto. Más recientemente, el desaprendizaje se discute a menudo como un enfoque para la eliminación de conocimiento inadmisible, es decir, conocimiento que el modelo no debería poseer, como información con derechos de autor no licenciada, inexacta o maliciosa. La promesa es que si el modelo no tiene una capacidad maliciosa determinada, entonces no puede ser utilizado para el propósito malicioso asociado. En este artículo, revisitamos el paradigma en el que se utiliza el desaprendizaje en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y destacamos una inconsistencia subyacente que surge del aprendizaje en contexto. El desaprendizaje puede ser un mecanismo de control efectivo para la fase de entrenamiento, pero no impide que el modelo realice un acto inadmisible durante la inferencia. Introducimos un concepto de "reaprendizaje", donde el conocimiento desaprendido se reintroduce en contexto, haciendo que el modelo sea capaz de comportarse como si supiera el conocimiento olvidado. Como resultado, argumentamos que será necesario filtrar el contenido para el conocimiento inadmisible y que incluso los esquemas de desaprendizaje exacto no son suficientes para una regulación efectiva del contenido. Discutimos la viabilidad del reaprendizaje para los LLMs modernos y examinamos las implicaciones más amplias.

English

Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

UnUnlearning: El desaprendizaje no es suficiente para la regulación de contenido en IA generativa avanzada

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

Resumen

Support