Messung der Tiefe des LLM-Unlearnings mittels Aktivierungs-Patching

Zusammenfassung

Das Unlearning großer Sprachmodelle (LLM) hat sich als entscheidender Post-hoc-Mechanismus für den Datenschutz und die KI-Sicherheit erwiesen, doch die Überprüfung, ob Zielwissen tatsächlich gelöscht wurde, bleibt eine Herausforderung. Bestehende Metriken auf Ausgabeebene versagen dabei zu erkennen, wenn dieses Wissen aus internen Repräsentationen wiederherstellbar bleibt. Aktuelle White-Box-Studien decken solche Restwissensbestände auf, stützen sich jedoch häufig auf Hilfstraining oder datensatzspezifische Anpassungen, sodass keine verallgemeinerbare Metrik existiert. Um diese Einschränkungen zu adressieren, schlagen wir den Unlearning Depth Score (UDS) vor, eine Metrik, die die mechanistische Tiefe des Unlearnings mittels Activation Patching quantifiziert. UDS identifiziert zunächst mittels einer Retain-Modell-Baseline die Schichten, die das Zielwissen kodieren, und misst dann auf einer Skala von 0 bis 1, wie viel davon im entlernten Modell gelöscht ist. In einer Meta-Evaluation über 20 Metriken an 150 entlernten Modellen aus 8 Methoden erzielt UDS die höchste Treue und Robustheit, was unseren kausalen Ansatz als den zuverlässigsten für die Unlearning-Evaluation bestätigt. Fallstudien zeigen zudem, dass White-Box-Metriken auf Schichtebene unterschiedlich ausfallen können und dass die Löschtiefe je nach Beispiel variiert. Wir stellen Richtlinien zur Integration von UDS in bestehende Benchmarking-Frameworks und zur Optimierung der Evaluierungspipeline bereit. Code und Daten sind verfügbar unter https://github.com/gnueaj/unlearning-depth-score.

English

Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score