Scrub It Out! Das Löschen sensibler Memorisierung in Code-Sprachmodellen durch Maschinelles Verlernen

papers.abstract

Während Code Language Models (CLMs) eine überlegene Leistung bei Softwareentwicklungsaufgaben wie Code-Generierung und -Zusammenfassung gezeigt haben, offenbaren aktuelle empirische Studien eine kritische Schwachstelle in Bezug auf den Datenschutz: Diese Modelle weisen unbeabsichtigtes Auswendiglernen sensibler Trainingsdaten auf, was die wortgetreue Reproduktion vertraulicher Informationen ermöglicht, wenn spezifisch danach gefragt wird. Um dieses Problem zu lösen, wurden mehrere Ansätze vorgeschlagen, darunter die Deduplizierung von Trainingsdaten und die Ergänzung durch differenzielle Privatsphäre. Diese Methoden erfordern jedoch eine vollständige Neuausbildung bereits eingesetzter CLMs, was erhebliche Rechenkosten verursacht. In diesem Artikel wollen wir die folgende Forschungsfrage beantworten: Kann sensibles, von CLMs auswendig gelerntes Information effektiv und effizient gelöscht werden? Wir führen eine wegweisende Untersuchung zum Löschen sensibler Auswendiglerninhalte in CLMs durch maschinelles Verlernen (Machine Unlearning) durch – eine nachträgliche Modifikationsmethode, die spezifische Informationen aus trainierten Modellen entfernt, ohne eine vollständige Neuausbildung zu erfordern. Konkret quantifizieren wir zunächst die Risiken des Auswendiglernens sensibler Daten innerhalb von CLM-Trainingsdatensätzen und erstellen einen Hochrisiko-Datensatz mit 50.000 sensiblen, auswendig gelernten Beispielen als Ziele für das Verlernen. Wir untersuchen zwei weit verbreitete, auf Gradientenanstieg basierende Verlernansätze: die einfache und die constraint-basierte Methode, und stellen CodeEraser vor, eine erweiterte Variante, die gezielt sensible, auswendig gelernte Code-Segmente entfernt, während die strukturelle Integrität und funktionale Korrektheit des umgebenden Codes erhalten bleibt. Umfangreiche Experimente mit drei Familien von CLMs – CodeParrot, CodeGen-Mono und Qwen2.5-Coder – bestätigen die Wirksamkeit und Effizienz von CodeEraser beim Löschen gezielter sensibler Auswendiglerninhalte bei gleichzeitiger Aufrechterhaltung der Modellnutzbarkeit.

English

While Code Language Models (CLMs) have demonstrated superior performance in software engineering tasks such as code generation and summarization, recent empirical studies reveal a critical privacy vulnerability: these models exhibit unintended memorization of sensitive training data, enabling verbatim reproduction of confidential information when specifically prompted. To address this issue, several approaches, including training data de-duplication and differential privacy augmentation, have been proposed. However, these methods require full-model retraining for deployed CLMs, which incurs substantial computational costs. In this paper, we aim to answer the following research question: Can sensitive information memorized by CLMs be erased effectively and efficiently? We conduct a pioneering investigation into erasing sensitive memorization in CLMs through machine unlearning - a post-hoc modification method that removes specific information from trained models without requiring full retraining. Specifically, we first quantify the memorization risks of sensitive data within CLM training datasets and curate a high-risk dataset of 50,000 sensitive memorized samples as unlearning targets. We study two widely used gradient ascent-based unlearning approaches: the vanilla and constraint-based methods, and introduce CodeEraser, an advanced variant that selectively unlearns sensitive memorized segments in code while preserving the structural integrity and functional correctness of the surrounding code. Extensive experiments on three families of CLMs, i.e., CodeParrot, CodeGen-Mono, and Qwen2.5-Coder, validate the effectiveness and efficiency of CodeEraser in erasing targeted sensitive memorization while maintaining model utility.

Scrub It Out! Das Löschen sensibler Memorisierung in Code-Sprachmodellen durch Maschinelles Verlernen

Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

papers.abstract

Support