Aprendiendo a Rechazar: Hacia la Mitigación de Riesgos de Privacidad en LLMs

Resumen

Los grandes modelos de lenguaje (LLMs) exhiben capacidades notables en la comprensión y generación de lenguaje natural. Sin embargo, estos modelos pueden memorizar inadvertidamente información privada, lo que plantea riesgos significativos para la privacidad. Este estudio aborda el desafío de habilitar a los LLMs para proteger los datos privados de individuos específicos sin necesidad de una reentrenamiento completo. Proponemos \return, un conjunto de datos de Desaprendizaje de Datos Personales del Mundo Real, que consta de 2,492 individuos de Wikipedia con pares de preguntas y respuestas asociadas, para evaluar los métodos de desaprendizaje de máquinas (MU) para proteger datos personales en un escenario realista. Además, presentamos el Marco de Desaprendizaje Consciente de Nombres (NAUF) para la Protección de la Privacidad, que permite al modelo aprender qué información de individuos debe protegerse sin afectar su capacidad para responder preguntas relacionadas con otros individuos no relacionados. Nuestros experimentos extensos demuestran que NAUF logra una puntuación promedio de desaprendizaje de vanguardia, superando al mejor método de referencia en 5.65 puntos, protegiendo efectivamente los datos personales de los individuos objetivo mientras mantiene las capacidades generales del modelo.

English

Large language models (LLMs) exhibit remarkable capabilities in understanding and generating natural language. However, these models can inadvertently memorize private information, posing significant privacy risks. This study addresses the challenge of enabling LLMs to protect specific individuals' private data without the need for complete retraining. We propose \return, a Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods for protecting personal data in a realistic scenario. Additionally, we introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection, which enables the model to learn which individuals' information should be protected without affecting its ability to answer questions related to other unrelated individuals. Our extensive experiments demonstrate that NAUF achieves a state-of-the-art average unlearning score, surpassing the best baseline method by 5.65 points, effectively protecting target individuals' personal data while maintaining the model's general capabilities.

Aprendiendo a Rechazar: Hacia la Mitigación de Riesgos de Privacidad en LLMs

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Resumen

Support