Oubli persistant : désapprentissage permanent par quantification via attribution de circuits

Résumé

Les évaluations standard de désapprentissage mesurent la suppression comportementale en pleine précision, immédiatement après l'entraînement, alors que chaque modèle de langage déployé est d'abord quantifié. Des travaux récents ont montré que la quantification post-entraînement en 4 bits peut inverser le désapprentissage automatique ; nous montrons qu'il ne s'agit pas d'un artefact de réglage mais d'une double défaillance systématique : les méthodes basées sur le gradient qui induisent un oubli significatif le perdent sous compression, tandis que les méthodes qui survivent à la quantification ne modifient quasiment pas le modèle. Les deux échecs découlent de la même cause racine : pour toutes les références, les mises à jour par paramètre sont 47 à 828 fois inférieures à la largeur du bac de quantification NF4 ; des mises à jour diffusées à travers des milliards de paramètres ne peuvent pas franchir les limites des bacs de quantification, une conséquence que nous formalisons sous la forme d'un compromis sparsité-permanence. Nous présentons MANSU (Mechanistic-Aligned Null-Space Unlearning), qui résout les deux modes en combinant l'attribution de circuits causaux pour isoler le sous-graphe minimal de l'ensemble à oublier, une projection dans l'espace nul restreint au circuit avec une borne de rétention Fisher diagonale, et un plancher de magnitude par paramètre garantissant la survie à la quantification par construction. Nous introduisons également la Divergence d'Attribution de Circuit (CAD), une métrique de vérification mécaniste qui distingue l'effacement structurel de la suppression comportementale, une distinction que les métriques existantes ne peuvent pas faire. Sur plusieurs familles de modèles et benchmarks de risques, MANSU est la première méthode à satisfaire conjointement les quatre propriétés avec une marge sur chacune (oubli significatif, préservation de la rétention, écart PTQ non positif et effacement structurel), tandis que les références basées sur le gradient récupèrent jusqu'à +0,05 de précision sous compression.

English

Standard unlearning evaluations measure behavioral suppression in full precision, immediately after training, despite every deployed language model being quantized first. Recent work has shown that 4-bit post-training quantization can reverse machine unlearning; we show this is not a tuning artefact but a systematic dual failure: gradient-based methods that achieve meaningful forgetting lose it under compression, while methods that survive quantization barely change the model. Both failures trace to the same root cause: across all baselines, per-parameter updates lie 47-828x below the NF4 quantization bin width; updates diffused across billions of parameters cannot clear quantization bin boundaries, a consequence we formalize as a sparsity-permanence tradeoff. We present MANSU (Mechanistic-Aligned Null-Space Unlearning), which resolves both modes by combining causal circuit attribution to isolate the minimal forget-set subgraph, circuit-restricted null-space projection with a diagonal-Fisher retain bound, and a per-parameter magnitude floor guaranteeing quantization survival by construction. We additionally introduce Circuit Attribution Divergence (CAD), a mechanistic verification metric distinguishing structural erasure from behavioral suppression, a distinction existing metrics cannot make. Across multiple model families and hazard benchmarks, MANSU is the first method to jointly satisfy all four properties with margin on each (meaningful forgetting, retain preservation, non-positive PTQ gap, and structural erasure), while gradient-based baselines recover up to +0.05 accuracy under compression.