TOFU: Eine Aufgabe des fiktiven Verlernens für LLMs
TOFU: A Task of Fictitious Unlearning for LLMs
January 11, 2024
Autoren: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter
cs.AI
Zusammenfassung
Große Sprachmodelle, die auf umfangreichen Datensammlungen aus dem Web trainiert werden, können sensible oder private Daten speichern und reproduzieren, was sowohl rechtliche als auch ethische Bedenken aufwirft. Das sogenannte „Unlearning“, also das Anpassen von Modellen, um Informationen aus ihren Trainingsdaten zu vergessen, bietet uns eine Möglichkeit, private Daten nach dem Training zu schützen. Obwohl mehrere Methoden für solches Unlearning existieren, ist unklar, inwieweit sie zu Modellen führen, die denen entsprechen, bei denen die zu vergessenden Daten von vornherein nie gelernt wurden. Um diese Herausforderung zu bewältigen, stellen wir TOFU (Task of Fictitious Unlearning) als Benchmark vor, der darauf abzielt, unser Verständnis von Unlearning zu vertiefen. Wir bieten einen Datensatz von 200 vielfältigen synthetischen Autorenprofilen, die jeweils aus 20 Frage-Antwort-Paaren bestehen, sowie eine Teilmenge dieser Profile, die als „Forget Set“ bezeichnet wird und als Ziel für das Unlearning dient. Wir stellen eine Reihe von Metriken zusammen, die zusammen ein umfassendes Bild der Wirksamkeit des Unlearnings vermitteln. Schließlich liefern wir eine Reihe von Baseline-Ergebnissen aus bestehenden Unlearning-Algorithmen. Wichtig ist, dass keine der betrachteten Baselines effektives Unlearning zeigt, was die Notwendigkeit weiterer Bemühungen zur Entwicklung von Ansätzen für Unlearning unterstreicht, die Modelle so anpassen, dass sie sich tatsächlich so verhalten, als wären sie niemals auf die zu vergessenden Daten trainiert worden.
English
Large language models trained on massive corpora of data from the web can
memorize and reproduce sensitive or private data raising both legal and ethical
concerns. Unlearning, or tuning models to forget information present in their
training data, provides us with a way to protect private data after training.
Although several methods exist for such unlearning, it is unclear to what
extent they result in models equivalent to those where the data to be forgotten
was never learned in the first place. To address this challenge, we present
TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen
our understanding of unlearning. We offer a dataset of 200 diverse synthetic
author profiles, each consisting of 20 question-answer pairs, and a subset of
these profiles called the forget set that serves as the target for unlearning.
We compile a suite of metrics that work together to provide a holistic picture
of unlearning efficacy. Finally, we provide a set of baseline results from
existing unlearning algorithms. Importantly, none of the baselines we consider
show effective unlearning motivating continued efforts to develop approaches
for unlearning that effectively tune models so that they truly behave as if
they were never trained on the forget data at all.