TOFU: Задача фиктивного разобучения для языковых моделей
TOFU: A Task of Fictitious Unlearning for LLMs
January 11, 2024
Авторы: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter
cs.AI
Аннотация
Крупные языковые модели, обученные на огромных корпусах данных из интернета, могут запоминать и воспроизводить конфиденциальную или личную информацию, что вызывает как юридические, так и этические опасения. Метод "забывания" (unlearning), или настройки моделей на удаление информации, присутствующей в их обучающих данных, предоставляет способ защиты личных данных после обучения. Хотя существует несколько методов такого "забывания", остается неясным, в какой степени они приводят к моделям, эквивалентным тем, где данные, которые нужно забыть, изначально не были изучены. Чтобы решить эту задачу, мы представляем TOFU (Task of Fictitious Unlearning) — эталонный тест, направленный на углубление понимания процесса "забывания". Мы предлагаем набор данных из 200 разнообразных синтетических профилей авторов, каждый из которых состоит из 20 пар вопросов и ответов, а также подмножество этих профилей, называемое "набором для забывания", которое служит целью для удаления. Мы разработали набор метрик, которые вместе дают целостную картину эффективности "забывания". Наконец, мы предоставляем базовые результаты, полученные с использованием существующих алгоритмов "забывания". Важно отметить, что ни один из рассмотренных базовых подходов не демонстрирует эффективного "забывания", что мотивирует дальнейшие усилия по разработке методов, которые действительно настраивают модели так, чтобы они вели себя так, как если бы данные для забывания никогда не использовались в обучении.
English
Large language models trained on massive corpora of data from the web can
memorize and reproduce sensitive or private data raising both legal and ethical
concerns. Unlearning, or tuning models to forget information present in their
training data, provides us with a way to protect private data after training.
Although several methods exist for such unlearning, it is unclear to what
extent they result in models equivalent to those where the data to be forgotten
was never learned in the first place. To address this challenge, we present
TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen
our understanding of unlearning. We offer a dataset of 200 diverse synthetic
author profiles, each consisting of 20 question-answer pairs, and a subset of
these profiles called the forget set that serves as the target for unlearning.
We compile a suite of metrics that work together to provide a holistic picture
of unlearning efficacy. Finally, we provide a set of baseline results from
existing unlearning algorithms. Importantly, none of the baselines we consider
show effective unlearning motivating continued efforts to develop approaches
for unlearning that effectively tune models so that they truly behave as if
they were never trained on the forget data at all.