Mesure de la profondeur du désapprentissage des LLM via le patch d'activation

Résumé

Le désapprentissage des grands modèles de langage (LLM) est devenu un mécanisme a posteriori essentiel pour la protection de la vie privée et la sécurité de l'IA, mais l'audit visant à vérifier si une connaissance cible est réellement effacée reste un défi. Les métriques existantes au niveau des sorties ne parviennent pas à détecter les cas où cette connaissance reste récupérable à partir des représentations internes. De récentes études en boîte blanche révèlent cette connaissance résiduelle, mais elles reposent souvent sur un entraînement auxiliaire ou des adaptations spécifiques aux jeux de données, sans fournir de métrique généralisable. Pour remédier à ces limitations, nous proposons le score de profondeur de désapprentissage (UDS), une métrique qui quantifie la profondeur mécanistique du désapprentissage via la correction d'activation. L'UDS identifie d'abord les couches qui encodent la connaissance cible en utilisant un modèle de référence conservé, puis mesure, sur une échelle de 0 à 1, la proportion de cette connaissance effacée dans le modèle désappris. Dans une méta-évaluation portant sur 20 métriques et 150 modèles désappris issus de 8 méthodes, l'UDS atteint la fidélité et la robustesse les plus élevées, confirmant que notre approche causale est la plus fiable pour l'évaluation du désapprentissage. Des études de cas révèlent en outre que les métriques en boîte blanche peuvent diverger au niveau des couches et que la profondeur d'effacement varie selon les exemples. Nous fournissons des recommandations pour intégrer l'UDS dans les cadres de référence existants et rationaliser le pipeline d'évaluation. Le code et les données sont disponibles à l'adresse https://github.com/gnueaj/unlearning-depth-score.

English

Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score