Medición de la profundidad del desaprendizaje en LLMs mediante parcheo de activaciones

Resumen

El desaprendizaje de modelos de lenguaje grandes (LLM) ha surgido como un mecanismo post-hoc crucial para la protección de la privacidad y la seguridad de la IA, pero la auditoría de si el conocimiento objetivo está realmente eliminado sigue siendo un desafío. Las métricas existentes a nivel de salida no logran detectar cuándo este conocimiento sigue siendo recuperable a partir de representaciones internas. Estudios recientes de caja blanca revelan dicho conocimiento residual, pero a menudo dependen de entrenamiento auxiliar o adaptaciones específicas del conjunto de datos, sin dejar una métrica generalizable. Para abordar estas limitaciones, proponemos la Puntuación de Profundidad de Desaprendizaje (UDS), una métrica que cuantifica la profundidad mecanicista del desaprendizaje mediante parcheo de activaciones. UDS primero identifica las capas que codifican el conocimiento objetivo utilizando una línea base de modelo retenido, luego mide cuánto de este se ha eliminado en el modelo desaprendido en una escala de 0 a 1. En una metaevaluación a través de 20 métricas en 150 modelos desaprendidos que abarcan 8 métodos, UDS logra la mayor fidelidad y robustez, confirmando nuestro enfoque causal como el más confiable para la evaluación del desaprendizaje. Estudios de caso revelan además que las métricas de caja blanca pueden discrepar a nivel de capas y que la profundidad de eliminación varía entre ejemplos. Proporcionamos pautas para integrar UDS en marcos de referencia existentes y optimizar el flujo de evaluación. El código y los datos están disponibles en https://github.com/gnueaj/unlearning-depth-score

English

Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score