Effacez-le ! Suppression de la mémorisation sensible dans les modèles de langage de code via le désapprentissage automatique

papers.abstract

Bien que les modèles de langage de code (CLMs) aient démontré des performances supérieures dans des tâches d'ingénierie logicielle telles que la génération et la synthèse de code, des études empiriques récentes révèlent une vulnérabilité critique en matière de confidentialité : ces modèles présentent une mémorisation involontaire de données sensibles issues de l'entraînement, permettant la reproduction textuelle d'informations confidentielles lorsqu'ils sont spécifiquement sollicités. Pour résoudre ce problème, plusieurs approches, incluant la déduplication des données d'entraînement et l'augmentation par confidentialité différentielle, ont été proposées. Cependant, ces méthodes nécessitent un réentraînement complet des CLMs déjà déployés, ce qui engendre des coûts computationnels substantiels. Dans cet article, nous cherchons à répondre à la question de recherche suivante : Les informations sensibles mémorisées par les CLMs peuvent-elles être effacées de manière efficace et efficiente ? Nous menons une investigation pionnière sur l'effacement de la mémorisation sensible dans les CLMs via le désapprentissage automatique (machine unlearning) — une méthode de modification post-hoc qui supprime des informations spécifiques des modèles entraînés sans nécessiter un réentraînement complet. Plus précisément, nous quantifions d'abord les risques de mémorisation des données sensibles dans les ensembles de données d'entraînement des CLMs et constituons un ensemble de données à haut risque de 50 000 échantillons sensibles mémorisés comme cibles de désapprentissage. Nous étudions deux approches de désapprentissage basées sur l'ascension de gradient largement utilisées : les méthodes classique et contrainte, et introduisons CodeEraser, une variante avancée qui désapprend sélectivement les segments sensibles mémorisés dans le code tout en préservant l'intégrité structurelle et la correction fonctionnelle du code environnant. Des expériences approfondies sur trois familles de CLMs, à savoir CodeParrot, CodeGen-Mono et Qwen2.5-Coder, valident l'efficacité et l'efficience de CodeEraser pour effacer la mémorisation sensible ciblée tout en maintenant l'utilité du modèle.

English

While Code Language Models (CLMs) have demonstrated superior performance in software engineering tasks such as code generation and summarization, recent empirical studies reveal a critical privacy vulnerability: these models exhibit unintended memorization of sensitive training data, enabling verbatim reproduction of confidential information when specifically prompted. To address this issue, several approaches, including training data de-duplication and differential privacy augmentation, have been proposed. However, these methods require full-model retraining for deployed CLMs, which incurs substantial computational costs. In this paper, we aim to answer the following research question: Can sensitive information memorized by CLMs be erased effectively and efficiently? We conduct a pioneering investigation into erasing sensitive memorization in CLMs through machine unlearning - a post-hoc modification method that removes specific information from trained models without requiring full retraining. Specifically, we first quantify the memorization risks of sensitive data within CLM training datasets and curate a high-risk dataset of 50,000 sensitive memorized samples as unlearning targets. We study two widely used gradient ascent-based unlearning approaches: the vanilla and constraint-based methods, and introduce CodeEraser, an advanced variant that selectively unlearns sensitive memorized segments in code while preserving the structural integrity and functional correctness of the surrounding code. Extensive experiments on three families of CLMs, i.e., CodeParrot, CodeGen-Mono, and Qwen2.5-Coder, validate the effectiveness and efficiency of CodeEraser in erasing targeted sensitive memorization while maintaining model utility.

Effacez-le ! Suppression de la mémorisation sensible dans les modèles de langage de code via le désapprentissage automatique

Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

papers.abstract

Support