Scrub It Out! Het wissen van gevoelige memorisatie in coderende taalmodellen via machine unlearning

Samenvatting

Hoewel Code Language Models (CLMs) superieure prestaties hebben getoond in software-engineeringtaken zoals codegeneratie en samenvatting, onthullen recente empirische studies een kritieke privacykwetsbaarheid: deze modellen vertonen onbedoelde memorisatie van gevoelige trainingsgegevens, waardoor letterlijke reproductie van vertrouwelijke informatie mogelijk wordt wanneer hier specifiek om wordt gevraagd. Om dit probleem aan te pakken, zijn verschillende benaderingen voorgesteld, waaronder deduplicatie van trainingsgegevens en augmentatie met differentiële privacy. Deze methoden vereisen echter volledige hertraining van geïmplementeerde CLMs, wat aanzienlijke rekenkosten met zich meebrengt. In dit artikel streven we ernaar de volgende onderzoeksvraag te beantwoorden: Kan gevoelige informatie die door CLMs is gememoriseerd, effectief en efficiënt worden gewist? We voeren een baanbrekend onderzoek uit naar het wissen van gevoelige memorisatie in CLMs via machine unlearning - een post-hoc modificatiemethode die specifieke informatie uit getrainde modellen verwijdert zonder volledige hertraining te vereisen. Specifiek kwantificeren we eerst de memorisatierisico's van gevoelige gegevens binnen CLM-trainingsdatasets en stellen we een hoogrisicodataset samen van 50.000 gevoelige gememoriseerde samples als doelen voor unlearning. We bestuderen twee veelgebruikte gradient ascent-gebaseerde unlearning-benaderingen: de standaardmethode en de constraint-gebaseerde methode, en introduceren CodeEraser, een geavanceerde variant die selectief gevoelige gememoriseerde segmenten in code verwijdert terwijl de structurele integriteit en functionele correctheid van de omringende code behouden blijft. Uitgebreide experimenten op drie families van CLMs, namelijk CodeParrot, CodeGen-Mono en Qwen2.5-Coder, valideren de effectiviteit en efficiëntie van CodeEraser in het wissen van gerichte gevoelige memorisatie terwijl de modelnut behouden blijft.

English

While Code Language Models (CLMs) have demonstrated superior performance in software engineering tasks such as code generation and summarization, recent empirical studies reveal a critical privacy vulnerability: these models exhibit unintended memorization of sensitive training data, enabling verbatim reproduction of confidential information when specifically prompted. To address this issue, several approaches, including training data de-duplication and differential privacy augmentation, have been proposed. However, these methods require full-model retraining for deployed CLMs, which incurs substantial computational costs. In this paper, we aim to answer the following research question: Can sensitive information memorized by CLMs be erased effectively and efficiently? We conduct a pioneering investigation into erasing sensitive memorization in CLMs through machine unlearning - a post-hoc modification method that removes specific information from trained models without requiring full retraining. Specifically, we first quantify the memorization risks of sensitive data within CLM training datasets and curate a high-risk dataset of 50,000 sensitive memorized samples as unlearning targets. We study two widely used gradient ascent-based unlearning approaches: the vanilla and constraint-based methods, and introduce CodeEraser, an advanced variant that selectively unlearns sensitive memorized segments in code while preserving the structural integrity and functional correctness of the surrounding code. Extensive experiments on three families of CLMs, i.e., CodeParrot, CodeGen-Mono, and Qwen2.5-Coder, validate the effectiveness and efficiency of CodeEraser in erasing targeted sensitive memorization while maintaining model utility.

Scrub It Out! Het wissen van gevoelige memorisatie in coderende taalmodellen via machine unlearning

Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

Samenvatting

Support