Medindo a Profundidade do Esquecimento de LLMs via Patching de Ativação

Resumo

A desaprendizagem de modelos de linguagem de grande porte (LLMs) emergiu como um mecanismo pós-hoc crucial para proteção de privacidade e segurança de IA, no entanto, auditar se o conhecimento alvo foi verdadeiramente apagado permanece desafiador. As métricas existentes de nível de saída falham em detectar quando esse conhecimento permanece recuperável a partir de representações internas. Estudos recentes de caixa branca revelam esse conhecimento residual, mas frequentemente dependem de treinamento auxiliar ou adaptações específicas de conjunto de dados, não deixando uma métrica generalizável. Para abordar essas limitações, propomos o Unlearning Depth Score (UDS), uma métrica que quantifica a profundidade mecanicista da desaprendizagem via patching de ativação. O UDS primeiro identifica camadas que codificam o conhecimento alvo usando um modelo de retenção de linha de base, em seguida mede o quanto dele é apagado no modelo desaprendido em uma escala de 0 a 1. Em uma meta-avaliação com 20 métricas em 150 modelos desaprendidos abrangendo 8 métodos, o UDS alcança a maior fidelidade e robustez, confirmando nossa abordagem causal como a mais confiável para avaliação de desaprendizagem. Estudos de caso revelam ainda que métricas de caixa branca podem discordar no nível de camada e que a profundidade de apagamento varia entre exemplos. Fornecemos diretrizes para integrar o UDS em estruturas de benchmarking existentes e simplificar o pipeline de avaliação. Código e dados estão disponíveis em https://github.com/gnueaj/unlearning-depth-score.

English

Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score