MAAT: Multi-Phasen-Adapter-bewusstes gezieltes Verlernen

Zusammenfassung

Die Evaluierung von Machine Unlearning ist strukturell verzerrt: Warum-Typ-Fragen, die kausales und relationales Wissen prüfen, machen weniger als 0,06 % von CounterFact, 0,6 % von ZSRE und weniger als 1,3 % von TOFU, MUSE und WMDP-Cyber aus. Diese nahezu Nullrepräsentation führt dazu, dass Methoden, die bei kausalem Wissen versagen, aggregiert hohe Punktzahlen erzielen können, und dieses Versagen bleibt ohne ausgewogene Evaluierung unerkannt. Wir stellen 5WBENCH vor, einen ausgewogenen Benchmark mit 5.000 Stichproben und 1.000 Beispielen pro 5W-Kategorie (Wer, Was, Wann, Wo, Warum), der kausale Unlearning-Fehler erstmals quantifizierbar macht. Mittels 5WBENCH zeigen wir, dass keine bestehende Baseline gleichzeitig hohes Vergessen und hohes Behalten bei Warum-Typ-Fragen erreicht: Aggressives Vergessen verschlechtert das behaltene Wissen, während konservative Methoden kausale Fakten nicht vergessen. Die Schwierigkeit des Warum-Typs rührt von mehrschrittigen Reasoning-Ketten (44 % der Warum-Einträge gegenüber ≤ 2 % bei anderen) und Gradientenverdünnung über Antwortspannen von 40,1 Token her. Wir präsentieren MAAT (Multi-phase Adapter-Aware Targeted Unlearning), ein dreiphasiges Framework, das auf LoRA-Adaptergewichten operiert und gradientenprojizierten Aufstieg, SVD-Rangdimensionsbereinigung, Task-Vektor-Negation sowie hybride KL-Hidden-State-Bewahrungsreparatur kombiniert. MAAT ist die erste Methode, die gleichzeitig hohes Vergessen und hohes Behalten bei kausalem Warum-Typ-Wissen erreicht und einen neuen Betriebspunkt an der Pareto-Frontier von Vergessen und Behalten setzt. Wir stellen unseren Code öffentlich zur Verfügung.

English

Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.