TOFU: Een Taak van Fictief Afleren voor Taalmodellen
TOFU: A Task of Fictitious Unlearning for LLMs
January 11, 2024
Auteurs: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter
cs.AI
Samenvatting
Grote taalmodellen die getraind zijn op enorme corpora van gegevens van het web kunnen gevoelige of privégegevens onthouden en reproduceren, wat zowel juridische als ethische zorgen oproept. Het afleren, of het afstemmen van modellen om informatie uit hun trainingsgegevens te vergeten, biedt ons een manier om privégegevens na de training te beschermen. Hoewel er verschillende methoden bestaan voor dergelijk afleren, is het onduidelijk in hoeverre deze resulteren in modellen die equivalent zijn aan die waarbij de te vergeten gegevens nooit zijn geleerd. Om deze uitdaging aan te pakken, presenteren we TOFU, een Task of Fictitious Unlearning, als een benchmark die bedoeld is om ons begrip van afleren te verdiepen. We bieden een dataset van 200 diverse synthetische auteurprofielen, elk bestaande uit 20 vraag-antwoordparen, en een subset van deze profielen genaamd de forget set die dient als doelwit voor afleren. We stellen een reeks metriek samen die samen een holistisch beeld geven van de effectiviteit van afleren. Tot slot bieden we een set basisresultaten van bestaande afleralgoritmen. Belangrijk is dat geen van de baselines die we beschouwen effectief afleren laten zien, wat blijvende inspanningen motiveert om benaderingen voor afleren te ontwikkelen die modellen effectief afstemmen zodat ze zich echt gedragen alsof ze nooit op de forget data zijn getraind.
English
Large language models trained on massive corpora of data from the web can
memorize and reproduce sensitive or private data raising both legal and ethical
concerns. Unlearning, or tuning models to forget information present in their
training data, provides us with a way to protect private data after training.
Although several methods exist for such unlearning, it is unclear to what
extent they result in models equivalent to those where the data to be forgotten
was never learned in the first place. To address this challenge, we present
TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen
our understanding of unlearning. We offer a dataset of 200 diverse synthetic
author profiles, each consisting of 20 question-answer pairs, and a subset of
these profiles called the forget set that serves as the target for unlearning.
We compile a suite of metrics that work together to provide a holistic picture
of unlearning efficacy. Finally, we provide a set of baseline results from
existing unlearning algorithms. Importantly, none of the baselines we consider
show effective unlearning motivating continued efforts to develop approaches
for unlearning that effectively tune models so that they truly behave as if
they were never trained on the forget data at all.