TOFU : Une tâche de désapprentissage fictif pour les modèles de langage
TOFU: A Task of Fictitious Unlearning for LLMs
January 11, 2024
Auteurs: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter
cs.AI
Résumé
Les grands modèles de langage entraînés sur des corpus massifs de données provenant du web peuvent mémoriser et reproduire des informations sensibles ou privées, soulevant des préoccupations à la fois juridiques et éthiques. Le désapprentissage, ou le réglage des modèles pour qu'ils oublient des informations présentes dans leurs données d'entraînement, nous offre un moyen de protéger les données privées après l'entraînement. Bien que plusieurs méthodes existent pour un tel désapprentissage, il n'est pas clair dans quelle mesure elles aboutissent à des modèles équivalents à ceux où les données à oublier n'auraient jamais été apprises en premier lieu. Pour relever ce défi, nous présentons TOFU, une Tâche de Désapprentissage Fictif, comme un benchmark visant à approfondir notre compréhension du désapprentissage. Nous proposons un ensemble de données de 200 profils d'auteurs synthétiques diversifiés, chacun composé de 20 paires question-réponse, ainsi qu'un sous-ensemble de ces profils appelé l'ensemble d'oubli qui sert de cible pour le désapprentissage. Nous compilons une suite de métriques qui, ensemble, fournissent une vision holistique de l'efficacité du désapprentissage. Enfin, nous présentons un ensemble de résultats de base provenant d'algorithmes de désapprentissage existants. Il est important de noter qu'aucun des algorithmes de base que nous considérons ne montre un désapprentissage efficace, ce qui motive la poursuite des efforts pour développer des approches de désapprentissage qui ajustent efficacement les modèles afin qu'ils se comportent véritablement comme s'ils n'avaient jamais été entraînés sur les données à oublier.
English
Large language models trained on massive corpora of data from the web can
memorize and reproduce sensitive or private data raising both legal and ethical
concerns. Unlearning, or tuning models to forget information present in their
training data, provides us with a way to protect private data after training.
Although several methods exist for such unlearning, it is unclear to what
extent they result in models equivalent to those where the data to be forgotten
was never learned in the first place. To address this challenge, we present
TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen
our understanding of unlearning. We offer a dataset of 200 diverse synthetic
author profiles, each consisting of 20 question-answer pairs, and a subset of
these profiles called the forget set that serves as the target for unlearning.
We compile a suite of metrics that work together to provide a holistic picture
of unlearning efficacy. Finally, we provide a set of baseline results from
existing unlearning algorithms. Importantly, none of the baselines we consider
show effective unlearning motivating continued efforts to develop approaches
for unlearning that effectively tune models so that they truly behave as if
they were never trained on the forget data at all.