TOFU: Una Tarea de Desaprendizaje Ficticio para Modelos de Lenguaje Grandes (LLMs)
TOFU: A Task of Fictitious Unlearning for LLMs
January 11, 2024
Autores: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter
cs.AI
Resumen
Los grandes modelos de lenguaje entrenados en corpus masivos de datos de la web pueden memorizar y reproducir información sensible o privada, lo que plantea preocupaciones tanto legales como éticas. El desaprendizaje, o el ajuste de modelos para olvidar información presente en sus datos de entrenamiento, nos proporciona una forma de proteger datos privados después del entrenamiento. Aunque existen varios métodos para este desaprendizaje, no está claro hasta qué punto resultan en modelos equivalentes a aquellos en los que los datos que se desean olvidar nunca se aprendieron en primer lugar. Para abordar este desafío, presentamos TOFU, una Tarea de Desaprendizaje Ficticio, como un punto de referencia destinado a profundizar nuestra comprensión del desaprendizaje. Ofrecemos un conjunto de datos de 200 perfiles de autores sintéticos diversos, cada uno compuesto por 20 pares de preguntas y respuestas, y un subconjunto de estos perfiles llamado conjunto de olvido que sirve como objetivo para el desaprendizaje. Compilamos un conjunto de métricas que trabajan juntas para proporcionar una imagen holística de la eficacia del desaprendizaje. Finalmente, proporcionamos un conjunto de resultados de referencia de algoritmos de desaprendizaje existentes. Es importante destacar que ninguno de los baselines que consideramos muestra un desaprendizaje efectivo, lo que motiva esfuerzos continuos para desarrollar enfoques de desaprendizaje que ajusten los modelos de manera que realmente se comporten como si nunca hubieran sido entrenados con los datos de olvido.
English
Large language models trained on massive corpora of data from the web can
memorize and reproduce sensitive or private data raising both legal and ethical
concerns. Unlearning, or tuning models to forget information present in their
training data, provides us with a way to protect private data after training.
Although several methods exist for such unlearning, it is unclear to what
extent they result in models equivalent to those where the data to be forgotten
was never learned in the first place. To address this challenge, we present
TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen
our understanding of unlearning. We offer a dataset of 200 diverse synthetic
author profiles, each consisting of 20 question-answer pairs, and a subset of
these profiles called the forget set that serves as the target for unlearning.
We compile a suite of metrics that work together to provide a holistic picture
of unlearning efficacy. Finally, we provide a set of baseline results from
existing unlearning algorithms. Importantly, none of the baselines we consider
show effective unlearning motivating continued efforts to develop approaches
for unlearning that effectively tune models so that they truly behave as if
they were never trained on the forget data at all.