Scrub It Out! Het wissen van gevoelige memorisatie in coderende taalmodellen via machine unlearning
Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning
September 17, 2025
Auteurs: Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo
cs.AI
Samenvatting
Hoewel Code Language Models (CLMs) superieure prestaties hebben getoond in software-engineeringtaken zoals codegeneratie en samenvatting, onthullen recente empirische studies een kritieke privacykwetsbaarheid: deze modellen vertonen onbedoelde memorisatie van gevoelige trainingsgegevens, waardoor letterlijke reproductie van vertrouwelijke informatie mogelijk wordt wanneer hier specifiek om wordt gevraagd. Om dit probleem aan te pakken, zijn verschillende benaderingen voorgesteld, waaronder deduplicatie van trainingsgegevens en augmentatie met differentiële privacy. Deze methoden vereisen echter volledige hertraining van geïmplementeerde CLMs, wat aanzienlijke rekenkosten met zich meebrengt. In dit artikel streven we ernaar de volgende onderzoeksvraag te beantwoorden: Kan gevoelige informatie die door CLMs is gememoriseerd, effectief en efficiënt worden gewist?
We voeren een baanbrekend onderzoek uit naar het wissen van gevoelige memorisatie in CLMs via machine unlearning - een post-hoc modificatiemethode die specifieke informatie uit getrainde modellen verwijdert zonder volledige hertraining te vereisen. Specifiek kwantificeren we eerst de memorisatierisico's van gevoelige gegevens binnen CLM-trainingsdatasets en stellen we een hoogrisicodataset samen van 50.000 gevoelige gememoriseerde samples als doelen voor unlearning. We bestuderen twee veelgebruikte gradient ascent-gebaseerde unlearning-benaderingen: de standaardmethode en de constraint-gebaseerde methode, en introduceren CodeEraser, een geavanceerde variant die selectief gevoelige gememoriseerde segmenten in code verwijdert terwijl de structurele integriteit en functionele correctheid van de omringende code behouden blijft. Uitgebreide experimenten op drie families van CLMs, namelijk CodeParrot, CodeGen-Mono en Qwen2.5-Coder, valideren de effectiviteit en efficiëntie van CodeEraser in het wissen van gerichte gevoelige memorisatie terwijl de modelnut behouden blijft.
English
While Code Language Models (CLMs) have demonstrated superior performance in
software engineering tasks such as code generation and summarization, recent
empirical studies reveal a critical privacy vulnerability: these models exhibit
unintended memorization of sensitive training data, enabling verbatim
reproduction of confidential information when specifically prompted. To address
this issue, several approaches, including training data de-duplication and
differential privacy augmentation, have been proposed. However, these methods
require full-model retraining for deployed CLMs, which incurs substantial
computational costs. In this paper, we aim to answer the following research
question: Can sensitive information memorized by CLMs be erased effectively and
efficiently?
We conduct a pioneering investigation into erasing sensitive memorization in
CLMs through machine unlearning - a post-hoc modification method that removes
specific information from trained models without requiring full retraining.
Specifically, we first quantify the memorization risks of sensitive data within
CLM training datasets and curate a high-risk dataset of 50,000 sensitive
memorized samples as unlearning targets. We study two widely used gradient
ascent-based unlearning approaches: the vanilla and constraint-based methods,
and introduce CodeEraser, an advanced variant that selectively unlearns
sensitive memorized segments in code while preserving the structural integrity
and functional correctness of the surrounding code. Extensive experiments on
three families of CLMs, i.e., CodeParrot, CodeGen-Mono, and Qwen2.5-Coder,
validate the effectiveness and efficiency of CodeEraser in erasing targeted
sensitive memorization while maintaining model utility.