Leren weigeren: Naar het verminderen van privacyrisico's in LLM's
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
July 14, 2024
Auteurs: Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) vertonen opmerkelijke capaciteiten in het begrijpen en genereren van natuurlijke taal. Deze modellen kunnen echter onbedoeld privé-informatie onthouden, wat aanzienlijke privacyrisico's met zich meebrengt. Deze studie richt zich op de uitdaging om LLMs in staat te stellen de privégegevens van specifieke individuen te beschermen zonder dat volledige hertraining nodig is. Wij stellen \return voor, een Real-world pErsonal daTa UnleaRNing-dataset, bestaande uit 2.492 individuen van Wikipedia met bijbehorende vraag-antwoordparen, om machine unlearning (MU)-methoden te evalueren voor het beschermen van persoonlijke gegevens in een realistische scenario. Daarnaast introduceren we het Name-Aware Unlearning Framework (NAUF) voor Privacy Protection, dat het model in staat stelt te leren welke individuele informatie beschermd moet worden zonder dat het vermogen om vragen over andere niet-gerelateerde individuen te beantwoorden wordt aangetast. Onze uitgebreide experimenten tonen aan dat NAUF een state-of-the-art gemiddelde unlearning-score behaalt, die de beste baseline-methode met 5,65 punten overtreft, en effectief de persoonlijke gegevens van doelindividuen beschermt terwijl de algemene capaciteiten van het model behouden blijven.
English
Large language models (LLMs) exhibit remarkable capabilities in understanding
and generating natural language. However, these models can inadvertently
memorize private information, posing significant privacy risks. This study
addresses the challenge of enabling LLMs to protect specific individuals'
private data without the need for complete retraining. We propose \return, a
Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from
Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods
for protecting personal data in a realistic scenario. Additionally, we
introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection,
which enables the model to learn which individuals' information should be
protected without affecting its ability to answer questions related to other
unrelated individuals. Our extensive experiments demonstrate that NAUF achieves
a state-of-the-art average unlearning score, surpassing the best baseline
method by 5.65 points, effectively protecting target individuals' personal data
while maintaining the model's general capabilities.