프라이버시 위험 완화를 위한 LLM의 거부 학습
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
July 14, 2024
저자: Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen
cs.AI
초록
대규모 언어 모델(LLMs)은 자연어 이해 및 생성에서 뛰어난 능력을 보여줍니다. 그러나 이러한 모델들은 의도치 않게 개인 정보를 암기할 수 있어, 상당한 프라이버시 위험을 초래할 수 있습니다. 본 연구는 LLMs가 특정 개인의 개인 데이터를 보호할 수 있도록 하면서도 완전한 재학습이 필요 없는 방법을 다룹니다. 우리는 실제 시나리오에서 개인 데이터 보호를 위한 머신 언러닝(MU) 방법을 평가하기 위해 위키피디아의 2,492명의 개인과 관련된 질의응답(QA) 쌍으로 구성된 \return(Real-world pErsonal daTa UnleaRNing) 데이터셋을 제안합니다. 또한, 프라이버시 보호를 위한 이름 인식 언러닝 프레임워크(Name-Aware Unlearning Framework, NAUF)를 소개합니다. 이 프레임워크는 모델이 특정 개인의 정보를 보호해야 함을 학습하면서도, 다른 관련 없는 개인과 관련된 질문에 대한 답변 능력을 유지할 수 있도록 합니다. 우리의 광범위한 실험 결과, NAUF는 최고의 베이스라인 방법을 5.65점 앞서는 최첨단 평균 언러닝 점수를 달성하며, 목표 개인의 개인 데이터를 효과적으로 보호하면서도 모델의 일반적인 능력을 유지함을 입증했습니다.
English
Large language models (LLMs) exhibit remarkable capabilities in understanding
and generating natural language. However, these models can inadvertently
memorize private information, posing significant privacy risks. This study
addresses the challenge of enabling LLMs to protect specific individuals'
private data without the need for complete retraining. We propose \return, a
Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from
Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods
for protecting personal data in a realistic scenario. Additionally, we
introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection,
which enables the model to learn which individuals' information should be
protected without affecting its ability to answer questions related to other
unrelated individuals. Our extensive experiments demonstrate that NAUF achieves
a state-of-the-art average unlearning score, surpassing the best baseline
method by 5.65 points, effectively protecting target individuals' personal data
while maintaining the model's general capabilities.Summary
AI-Generated Summary