Забывание, которое остается: перманентное удаление данных через схемную атрибуцию

Аннотация

Стандартные оценки забывания (unlearning) измеряют подавление поведения в полной точности сразу после обучения, несмотря на то, что все развернутые языковые модели сначала квантуются. Недавние работы показали, что пост-тренировочное квантование до 4 бит может обратить вспять машинное забывание; мы демонстрируем, что это не артефакт настройки, а систематический двойной сбой: градиентные методы, достигающие значимого забывания, теряют его при сжатии, тогда как методы, переживающие квантование, едва изменяют модель. Оба сбоя связаны с одной и той же коренной причиной: во всех базовых подходах обновления на параметр лежат в 47–828 раз ниже ширины бина квантования NF4; обновления, разнесенные по миллиардам параметров, не могут преодолеть границы бинов квантования — следствие, которое мы формализуем как компромисс между разреженностью и сохранностью (sparsity-permanence tradeoff). Мы представляем MANSU (Mechanistic-Aligned Null-Space Unlearning — механистически согласованное забывание в нуль-пространстве), который устраняет оба режима путем объединения атрибуции причинно-следственных цепей для выделения минимального подграфа забываемого множества, проекции на нуль-пространство, ограниченной цепью, с диагональным граничным условием Фишера для сохранения, и порога величины на параметр, гарантирующего выживание при квантовании по построению. Мы также вводим расхождение атрибуции цепей (Circuit Attribution Divergence, CAD) — метрику механистической верификации, различающую структурное стирание и подавление поведения, что невозможно для существующих метрик. На нескольких семействах моделей и бенчмарках опасностей MANSU является первым методом, который совместно удовлетворяет всем четырем свойствам с запасом по каждому (значимое забывание, сохранение удержанного, неположительный разрыв при пост-тренировочном квантовании и структурное стирание), в то время как градиентные базовые методы восстанавливают до +0.05 точности при сжатии.

English

Standard unlearning evaluations measure behavioral suppression in full precision, immediately after training, despite every deployed language model being quantized first. Recent work has shown that 4-bit post-training quantization can reverse machine unlearning; we show this is not a tuning artefact but a systematic dual failure: gradient-based methods that achieve meaningful forgetting lose it under compression, while methods that survive quantization barely change the model. Both failures trace to the same root cause: across all baselines, per-parameter updates lie 47-828x below the NF4 quantization bin width; updates diffused across billions of parameters cannot clear quantization bin boundaries, a consequence we formalize as a sparsity-permanence tradeoff. We present MANSU (Mechanistic-Aligned Null-Space Unlearning), which resolves both modes by combining causal circuit attribution to isolate the minimal forget-set subgraph, circuit-restricted null-space projection with a diagonal-Fisher retain bound, and a per-parameter magnitude floor guaranteeing quantization survival by construction. We additionally introduce Circuit Attribution Divergence (CAD), a mechanistic verification metric distinguishing structural erasure from behavioral suppression, a distinction existing metrics cannot make. Across multiple model families and hazard benchmarks, MANSU is the first method to jointly satisfy all four properties with margin on each (meaningful forgetting, retain preservation, non-positive PTQ gap, and structural erasure), while gradient-based baselines recover up to +0.05 accuracy under compression.