Aprendendo a Recusar: Rumo à Mitigação de Riscos de Privacidade em LLMs
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
July 14, 2024
Autores: Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) exibem capacidades notáveis em compreender e gerar linguagem natural. No entanto, esses modelos podem inadvertidamente memorizar informações privadas, representando riscos significativos à privacidade. Este estudo aborda o desafio de capacitar LLMs para proteger os dados privados de indivíduos específicos sem a necessidade de um retreinamento completo. Propomos \return, um conjunto de dados Real-world pErsonal daTa UnleaRNing, composto por 2.492 indivíduos da Wikipedia com pares de perguntas e respostas associadas, para avaliar métodos de desaprendizado de máquina (MU) para proteger dados pessoais em um cenário realista. Além disso, introduzimos o Framework de Desaprendizado Consciente de Nomes (NAUF) para Proteção de Privacidade, que permite ao modelo aprender quais informações de indivíduos devem ser protegidas sem afetar sua capacidade de responder a perguntas relacionadas a outros indivíduos não relacionados. Nossos experimentos extensivos demonstram que o NAUF alcança uma pontuação média de desaprendizado de última geração, superando o melhor método de referência em 5,65 pontos, protegendo efetivamente os dados pessoais dos indivíduos-alvo mantendo as capacidades gerais do modelo.
English
Large language models (LLMs) exhibit remarkable capabilities in understanding
and generating natural language. However, these models can inadvertently
memorize private information, posing significant privacy risks. This study
addresses the challenge of enabling LLMs to protect specific individuals'
private data without the need for complete retraining. We propose \return, a
Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from
Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods
for protecting personal data in a realistic scenario. Additionally, we
introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection,
which enables the model to learn which individuals' information should be
protected without affecting its ability to answer questions related to other
unrelated individuals. Our extensive experiments demonstrate that NAUF achieves
a state-of-the-art average unlearning score, surpassing the best baseline
method by 5.65 points, effectively protecting target individuals' personal data
while maintaining the model's general capabilities.