Aprendiendo a Rechazar: Hacia la Mitigación de Riesgos de Privacidad en LLMs
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
July 14, 2024
Autores: Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) exhiben capacidades notables en la comprensión y generación de lenguaje natural. Sin embargo, estos modelos pueden memorizar inadvertidamente información privada, lo que plantea riesgos significativos para la privacidad. Este estudio aborda el desafío de habilitar a los LLMs para proteger los datos privados de individuos específicos sin necesidad de una reentrenamiento completo. Proponemos \return, un conjunto de datos de Desaprendizaje de Datos Personales del Mundo Real, que consta de 2,492 individuos de Wikipedia con pares de preguntas y respuestas asociadas, para evaluar los métodos de desaprendizaje de máquinas (MU) para proteger datos personales en un escenario realista. Además, presentamos el Marco de Desaprendizaje Consciente de Nombres (NAUF) para la Protección de la Privacidad, que permite al modelo aprender qué información de individuos debe protegerse sin afectar su capacidad para responder preguntas relacionadas con otros individuos no relacionados. Nuestros experimentos extensos demuestran que NAUF logra una puntuación promedio de desaprendizaje de vanguardia, superando al mejor método de referencia en 5.65 puntos, protegiendo efectivamente los datos personales de los individuos objetivo mientras mantiene las capacidades generales del modelo.
English
Large language models (LLMs) exhibit remarkable capabilities in understanding
and generating natural language. However, these models can inadvertently
memorize private information, posing significant privacy risks. This study
addresses the challenge of enabling LLMs to protect specific individuals'
private data without the need for complete retraining. We propose \return, a
Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from
Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods
for protecting personal data in a realistic scenario. Additionally, we
introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection,
which enables the model to learn which individuals' information should be
protected without affecting its ability to answer questions related to other
unrelated individuals. Our extensive experiments demonstrate that NAUF achieves
a state-of-the-art average unlearning score, surpassing the best baseline
method by 5.65 points, effectively protecting target individuals' personal data
while maintaining the model's general capabilities.Summary
AI-Generated Summary