Scrub It Out! Das Löschen sensibler Memorisierung in Code-Sprachmodellen durch Maschinelles Verlernen
Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning
September 17, 2025
papers.authors: Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo
cs.AI
papers.abstract
Während Code Language Models (CLMs) eine überlegene Leistung bei Softwareentwicklungsaufgaben wie Code-Generierung und -Zusammenfassung gezeigt haben, offenbaren aktuelle empirische Studien eine kritische Schwachstelle in Bezug auf den Datenschutz: Diese Modelle weisen unbeabsichtigtes Auswendiglernen sensibler Trainingsdaten auf, was die wortgetreue Reproduktion vertraulicher Informationen ermöglicht, wenn spezifisch danach gefragt wird. Um dieses Problem zu lösen, wurden mehrere Ansätze vorgeschlagen, darunter die Deduplizierung von Trainingsdaten und die Ergänzung durch differenzielle Privatsphäre. Diese Methoden erfordern jedoch eine vollständige Neuausbildung bereits eingesetzter CLMs, was erhebliche Rechenkosten verursacht. In diesem Artikel wollen wir die folgende Forschungsfrage beantworten: Kann sensibles, von CLMs auswendig gelerntes Information effektiv und effizient gelöscht werden?
Wir führen eine wegweisende Untersuchung zum Löschen sensibler Auswendiglerninhalte in CLMs durch maschinelles Verlernen (Machine Unlearning) durch – eine nachträgliche Modifikationsmethode, die spezifische Informationen aus trainierten Modellen entfernt, ohne eine vollständige Neuausbildung zu erfordern. Konkret quantifizieren wir zunächst die Risiken des Auswendiglernens sensibler Daten innerhalb von CLM-Trainingsdatensätzen und erstellen einen Hochrisiko-Datensatz mit 50.000 sensiblen, auswendig gelernten Beispielen als Ziele für das Verlernen. Wir untersuchen zwei weit verbreitete, auf Gradientenanstieg basierende Verlernansätze: die einfache und die constraint-basierte Methode, und stellen CodeEraser vor, eine erweiterte Variante, die gezielt sensible, auswendig gelernte Code-Segmente entfernt, während die strukturelle Integrität und funktionale Korrektheit des umgebenden Codes erhalten bleibt. Umfangreiche Experimente mit drei Familien von CLMs – CodeParrot, CodeGen-Mono und Qwen2.5-Coder – bestätigen die Wirksamkeit und Effizienz von CodeEraser beim Löschen gezielter sensibler Auswendiglerninhalte bei gleichzeitiger Aufrechterhaltung der Modellnutzbarkeit.
English
While Code Language Models (CLMs) have demonstrated superior performance in
software engineering tasks such as code generation and summarization, recent
empirical studies reveal a critical privacy vulnerability: these models exhibit
unintended memorization of sensitive training data, enabling verbatim
reproduction of confidential information when specifically prompted. To address
this issue, several approaches, including training data de-duplication and
differential privacy augmentation, have been proposed. However, these methods
require full-model retraining for deployed CLMs, which incurs substantial
computational costs. In this paper, we aim to answer the following research
question: Can sensitive information memorized by CLMs be erased effectively and
efficiently?
We conduct a pioneering investigation into erasing sensitive memorization in
CLMs through machine unlearning - a post-hoc modification method that removes
specific information from trained models without requiring full retraining.
Specifically, we first quantify the memorization risks of sensitive data within
CLM training datasets and curate a high-risk dataset of 50,000 sensitive
memorized samples as unlearning targets. We study two widely used gradient
ascent-based unlearning approaches: the vanilla and constraint-based methods,
and introduce CodeEraser, an advanced variant that selectively unlearns
sensitive memorized segments in code while preserving the structural integrity
and functional correctness of the surrounding code. Extensive experiments on
three families of CLMs, i.e., CodeParrot, CodeGen-Mono, and Qwen2.5-Coder,
validate the effectiveness and efficiency of CodeEraser in erasing targeted
sensitive memorization while maintaining model utility.