Het meten van de diepte van LLM-verleren via activeringspatchen

Samenvatting

Het verleren van grote taalmodellen (large language model unlearning) is uitgegroeid tot een cruciale mechanisme voor privacybescherming en AI-veiligheid, maar het blijft uitdagend om te controleren of doelkennis daadwerkelijk is gewist. Bestaande metrieken op outputniveau slagen er niet in te detecteren wanneer deze kennis nog te herstellen is uit interne representaties. Recente white-boxstudies onthullen dergelijke residuele kennis, maar zijn vaak afhankelijk van aanvullende training of datasetspecifieke aanpassingen, waardoor er geen generaliseerbare metriek overblijft. Om deze beperkingen aan te pakken, stellen we de Unlearning Depth Score (UDS) voor, een metriek die de mechanistische diepte van het verleren kwantificeert via activatie-patching. UDS identificeert eerst de lagen die de doelkennis coderen met behulp van een baseline-model (retain model), en meet vervolgens in welke mate deze kennis is gewist in het verleerde model op een schaal van 0 tot 1. In een meta-evaluatie over 20 metrieken op 150 verleerde modellen, afkomstig van 8 methoden, behaalt UDS de hoogste betrouwbaarheid en robuustheid, wat bevestigt dat onze causale benadering de meest betrouwbare is voor de evaluatie van verleren. Casestudies tonen verder aan dat white-boxmetrieken op laagniveau kunnen verschillen en dat de wisdiepte varieert per voorbeeld. We bieden richtlijnen voor het integreren van UDS in bestaande benchmarkframeworks en het stroomlijnen van de evaluatiepijplijn. Code en data zijn beschikbaar op https://github.com/gnueaj/unlearning-depth-score.

English

Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score