ChatPaper.aiChatPaper

学習による拒否:LLMにおけるプライバシーリスクの軽減に向けて

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

July 14, 2024
著者: Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen
cs.AI

要旨

大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を発揮します。しかし、これらのモデルは意図せずに個人情報を記憶してしまう可能性があり、重大なプライバシーリスクを引き起こします。本研究では、完全な再学習を必要とせずに、特定の個人のプライバシーデータを保護するためのLLMの課題に取り組みます。私たちは、現実的なシナリオにおける個人データ保護のための機械的忘却(MU)手法を評価するために、Wikipediaから2,492人の個人と関連するQAペアを含む\return(Real-world pErsonal daTa UnleaRNing)データセットを提案します。さらに、プライバシー保護のためのName-Aware Unlearning Framework(NAUF)を導入し、モデルがどの個人の情報を保護すべきかを学習しながら、他の無関係な個人に関する質問に答える能力に影響を与えないようにします。私たちの大規模な実験により、NAUFが最先端の平均忘却スコアを達成し、最良のベースラインメソッドを5.65ポイント上回り、ターゲットとなる個人のプライバシーデータを効果的に保護しながら、モデルの一般的な能力を維持することが実証されました。
English
Large language models (LLMs) exhibit remarkable capabilities in understanding and generating natural language. However, these models can inadvertently memorize private information, posing significant privacy risks. This study addresses the challenge of enabling LLMs to protect specific individuals' private data without the need for complete retraining. We propose \return, a Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods for protecting personal data in a realistic scenario. Additionally, we introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection, which enables the model to learn which individuals' information should be protected without affecting its ability to answer questions related to other unrelated individuals. Our extensive experiments demonstrate that NAUF achieves a state-of-the-art average unlearning score, surpassing the best baseline method by 5.65 points, effectively protecting target individuals' personal data while maintaining the model's general capabilities.

Summary

AI-Generated Summary

PDF324November 28, 2024