Olvido Persistente: Desaprendizaje Permanente mediante Cuantización y Atribución de Circuitos

Resumen

Las evaluaciones estándar de desaprendizaje miden la supresión conductual en precisión completa, inmediatamente después del entrenamiento, a pesar de que cada modelo de lenguaje desplegado se cuantiza primero. Trabajos recientes han demostrado que la cuantización posterior al entrenamiento de 4 bits puede revertir el desaprendizaje automático; mostramos que esto no es un artefacto de ajuste sino un fallo sistemático dual: los métodos basados en gradientes que logran un olvido significativo lo pierden bajo compresión, mientras que los métodos que sobreviven a la cuantización apenas modifican el modelo. Ambos fallos se remontan a la misma causa raíz: en todas las líneas base, las actualizaciones por parámetro se encuentran entre 47 y 828 veces por debajo del ancho del contenedor de cuantización NF4; las actualizaciones difundidas a través de miles de millones de parámetros no pueden superar los límites de los contenedores de cuantización, una consecuencia que formalizamos como una compensación entre esparcidad y permanencia. Presentamos MANSU (Mechanistic-Aligned Null-Space Unlearning), que resuelve ambos modos combinando atribución causal de circuitos para aislar el subgrafo mínimo del conjunto de olvido, proyección de espacio nulo restringida al circuito con un límite de retención Fisher diagonal, y un umbral de magnitud por parámetro que garantiza la supervivencia a la cuantización por construcción. Además, introducimos la Divergencia de Atribución de Circuitos (CAD), una métrica de verificación mecanicista que distingue el borrado estructural de la supresión conductual, una distinción que las métricas existentes no pueden realizar. En múltiples familias de modelos y puntos de referencia de peligro, MANSU es el primer método que satisface conjuntamente las cuatro propiedades con margen en cada una (olvido significativo, preservación de retención, brecha PTQ no positiva y borrado estructural), mientras que las líneas base basadas en gradientes recuperan hasta +0.05 de precisión bajo compresión.

English

Standard unlearning evaluations measure behavioral suppression in full precision, immediately after training, despite every deployed language model being quantized first. Recent work has shown that 4-bit post-training quantization can reverse machine unlearning; we show this is not a tuning artefact but a systematic dual failure: gradient-based methods that achieve meaningful forgetting lose it under compression, while methods that survive quantization barely change the model. Both failures trace to the same root cause: across all baselines, per-parameter updates lie 47-828x below the NF4 quantization bin width; updates diffused across billions of parameters cannot clear quantization bin boundaries, a consequence we formalize as a sparsity-permanence tradeoff. We present MANSU (Mechanistic-Aligned Null-Space Unlearning), which resolves both modes by combining causal circuit attribution to isolate the minimal forget-set subgraph, circuit-restricted null-space projection with a diagonal-Fisher retain bound, and a per-parameter magnitude floor guaranteeing quantization survival by construction. We additionally introduce Circuit Attribution Divergence (CAD), a mechanistic verification metric distinguishing structural erasure from behavioral suppression, a distinction existing metrics cannot make. Across multiple model families and hazard benchmarks, MANSU is the first method to jointly satisfy all four properties with margin on each (meaningful forgetting, retain preservation, non-positive PTQ gap, and structural erasure), while gradient-based baselines recover up to +0.05 accuracy under compression.