Esquecimento que Persiste: Desaprendizagem Permanente por Quantização via Atribuição de Circuitos

Resumo

Avaliações padrão de desaprendizado medem a supressão comportamental em precisão total, imediatamente após o treinamento, apesar de todo modelo de linguagem implantado ser primeiro quantizado. Trabalhos recentes mostraram que a quantização pós-treinamento de 4 bits pode reverter o desaprendizado de máquina; demonstramos que isso não é um artefato de ajuste, mas uma falha dupla sistemática: métodos baseados em gradiente que alcançam esquecimento significativo perdem-no sob compressão, enquanto métodos que sobrevivem à quantização mal alteram o modelo. Ambas as falhas têm a mesma causa raiz: em todas as linhas de base, as atualizações por parâmetro ficam 47-828x abaixo da largura do bin de quantização NF4; atualizações difundidas por bilhões de parâmetros não conseguem ultrapassar os limites dos bins de quantização, consequência que formalizamos como um tradeoff de esparsidade-permanência. Apresentamos o MANSU (Mechanistic-Aligned Null-Space Unlearning, ou Desaprendizado de Espaço Nulo Alinhado Mecanicamente), que resolve ambos os modos combinando atribuição causal de circuitos para isolar o subgrafo mínimo de esquecimento, projeção de espaço nulo restrita ao circuito com um limite de retenção baseado na Fisher diagonal, e um piso de magnitude por parâmetro que garante a sobrevivência à quantização por construção. Além disso, introduzimos a Divergência de Atribuição de Circuito (CAD), uma métrica de verificação mecanicista que distingue apagamento estrutural de supressão comportamental, uma distinção que métricas existentes não conseguem fazer. Em múltiplas famílias de modelos e benchmarks de risco, o MANSU é o primeiro método a satisfazer conjuntamente todas as quatro propriedades com margem em cada uma (esquecimento significativo, preservação da retenção, gap PTQ não positivo e apagamento estrutural), enquanto as linhas de base baseadas em gradiente recuperam até +0,05 de acurácia sob compressão.

English

Standard unlearning evaluations measure behavioral suppression in full precision, immediately after training, despite every deployed language model being quantized first. Recent work has shown that 4-bit post-training quantization can reverse machine unlearning; we show this is not a tuning artefact but a systematic dual failure: gradient-based methods that achieve meaningful forgetting lose it under compression, while methods that survive quantization barely change the model. Both failures trace to the same root cause: across all baselines, per-parameter updates lie 47-828x below the NF4 quantization bin width; updates diffused across billions of parameters cannot clear quantization bin boundaries, a consequence we formalize as a sparsity-permanence tradeoff. We present MANSU (Mechanistic-Aligned Null-Space Unlearning), which resolves both modes by combining causal circuit attribution to isolate the minimal forget-set subgraph, circuit-restricted null-space projection with a diagonal-Fisher retain bound, and a per-parameter magnitude floor guaranteeing quantization survival by construction. We additionally introduce Circuit Attribution Divergence (CAD), a mechanistic verification metric distinguishing structural erasure from behavioral suppression, a distinction existing metrics cannot make. Across multiple model families and hazard benchmarks, MANSU is the first method to jointly satisfy all four properties with margin on each (meaningful forgetting, retain preservation, non-positive PTQ gap, and structural erasure), while gradient-based baselines recover up to +0.05 accuracy under compression.