Haftendes Vergessen: Quantisierungsbeständiges Unlearning durch Schaltkreisattribution

Zusammenfassung

Standardbewertungen des Auslernens messen die Verhaltensunterdrückung in voller Präzision unmittelbar nach dem Training, obwohl jedes eingesetzte Sprachmodell zuerst quantisiert wird. Aktuelle Arbeiten haben gezeigt, dass eine 4-Bit-Quantisierung nach dem Training das maschinelle Auslernen rückgängig machen kann; wir zeigen, dass dies kein Abstimmungsartefakt, sondern ein systematischer dualer Fehler ist: Gradientenbasierte Verfahren, die ein sinnvolles Vergessen erreichen, verlieren dieses unter Kompression, während Verfahren, die die Quantisierung überstehen, das Modell kaum verändern. Beide Fehler lassen sich auf dieselbe Ursache zurückführen: Über alle Basislinien hinweg liegen parameterweise Aktualisierungen um den Faktor 47–828 unterhalb der NF4-Quantisierungsintervallbreite; über Milliarden von Parametern verteilte Aktualisierungen können Quantisierungsintervallgrenzen nicht überschreiten – eine Konsequenz, die wir als Sparsity-Permanence-Kompromiss formalisieren. Wir stellen MANSU (Mechanistic-Aligned Null-Space Unlearning) vor, das beide Modi auflöst, indem es eine kausale Schaltkreisattribution zur Isolierung des minimalen Auslern-Set-Teilgraphen, eine schaltkreisbeschränkte Nullraumprojektion mit einer diagonal-Fisher-Erhaltungsgrenze und eine parameterweise Magnitudenuntergrenze kombiniert, die die Quantisierungsbeständigkeit konstruktionsbedingt garantiert. Zusätzlich führen wir die Schaltkreis-Attributionsdivergenz (CAD) ein, eine mechanistische Verifikationsmetrik, die strukturelle Löschung von Verhaltensunterdrückung unterscheidet – eine Unterscheidung, die bestehende Metriken nicht treffen können. Über mehrere Modellfamilien und Risikobenchmarks hinweg ist MANSU die erste Methode, die alle vier Eigenschaften gemeinsam mit jeweils positivem Spielraum erfüllt (sinnvolles Vergessen, Erhalt des Behaltenen, nicht-positive PTQ-Lücke und strukturelle Löschung), während gradientenbasierte Basislinien unter Kompression bis zu +0,05 Genauigkeit zurückgewinnen.

English

Standard unlearning evaluations measure behavioral suppression in full precision, immediately after training, despite every deployed language model being quantized first. Recent work has shown that 4-bit post-training quantization can reverse machine unlearning; we show this is not a tuning artefact but a systematic dual failure: gradient-based methods that achieve meaningful forgetting lose it under compression, while methods that survive quantization barely change the model. Both failures trace to the same root cause: across all baselines, per-parameter updates lie 47-828x below the NF4 quantization bin width; updates diffused across billions of parameters cannot clear quantization bin boundaries, a consequence we formalize as a sparsity-permanence tradeoff. We present MANSU (Mechanistic-Aligned Null-Space Unlearning), which resolves both modes by combining causal circuit attribution to isolate the minimal forget-set subgraph, circuit-restricted null-space projection with a diagonal-Fisher retain bound, and a per-parameter magnitude floor guaranteeing quantization survival by construction. We additionally introduce Circuit Attribution Divergence (CAD), a mechanistic verification metric distinguishing structural erasure from behavioral suppression, a distinction existing metrics cannot make. Across multiple model families and hazard benchmarks, MANSU is the first method to jointly satisfy all four properties with margin on each (meaningful forgetting, retain preservation, non-positive PTQ gap, and structural erasure), while gradient-based baselines recover up to +0.05 accuracy under compression.