Измерение глубины разобучения LLM посредством патчинга активаций

Аннотация

Метод разобучения (unlearning) больших языковых моделей (БЯМ) стал важнейшим постфактум-механизмом для защиты конфиденциальности и обеспечения безопасности ИИ, однако проверка того, действительно ли целевая информация удалена, остается сложной задачей. Существующие метрики на уровне выходов неспособны выявить случаи, когда эти знания остаются восстанавливаемыми из внутренних представлений. Недавние исследования в парадигме "белого ящика" обнаруживают такие остаточные знания, но часто опираются на вспомогательное обучение или адаптации под конкретный набор данных, не предлагая обобщаемой метрики. Для преодоления этих ограничений мы предлагаем метрику Оценка глубины разобучения (Unlearning Depth Score, UDS), которая количественно измеряет механистическую глубину разобучения с помощью подстановки активаций. UDS сначала определяет слои, кодирующие целевые знания, с использованием базовой неизмененной модели, а затем оценивает степень их удаления в разобученной модели по шкале от 0 до 1. В мета-оценке 20 метрик на 150 разобученных моделях, полученных 8 методами, UDS продемонстрировал наивысшую точность и устойчивость, подтверждая, что наш каузальный подход является наиболее надежным для оценки разобучения. Анализ конкретных случаев дополнительно показывает, что метрики "белого ящика" могут расходиться на уровне слоев, а глубина удаления варьируется между примерами. Мы предоставляем рекомендации по интеграции UDS в существующие бенчмарки и оптимизации процесса оценки. Код и данные доступны по адресу https://github.com/gnueaj/unlearning-depth-score.

English

Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score