MAAT: Meerfasig adapterbewust gericht ontleren

Samenvatting

Evaluatie van machine-ontleren is structureel scheef: Waarom-vragen, die causale en relationele kennis peilen, maken minder dan 0,06% uit van CounterFact, 0,6% van ZSRE en minder dan 1,3% van TOFU, MUSE en WMDP-Cyber. Deze bijna-nul vertegenwoordiging betekent dat methoden die falen op causale kennis hoog kunnen scoren in het totaal, en dit falen is niet detecteerbaar zonder gebalanceerde evaluatie. We presenteren 5WBENCH, een gebalanceerde benchmark met 5.000 voorbeelden, met 1.000 voorbeelden per 5W-categorie (Wie, Wat, Wanneer, Waar, Waarom), waardoor causale ontleerfouten voor het eerst kwantificeerbaar worden. Met behulp van 5WBENCH tonen we aan dat geen enkele bestaande basislijn tegelijkertijd hoog vergeten en hoge retentie op Waarom-vragen bereikt: agressief vergeten tast behouden kennis aan, terwijl conservatieve methoden er niet in slagen causale feiten te vergeten. De moeilijkheid van Waarom-vragen komt voort uit multi-hop redeneerketens (44% van Waarom-items versus minder dan of gelijk aan 2% voor anderen) en gradiëntverdunning over antwoordspannes van 40,1 tokens. We presenteren MAAT (Multi-phase Adapter-Aware Targeted Unlearning), een driefasenraamwerk dat werkt op LoRA-adaptergewichten, en gradiënt-geprojecteerde stijging, SVD-rang-dimensie snoeien, taakvectornegatie en hybride KL-verborgen toestand retentieherstel combineert. MAAT is de eerste methode die tegelijkertijd hoog vergeten en hoge retentie op Waarom-type causale kennis bereikt, en een nieuw werkpunt op de vergeten-retentie Pareto-grens bereikt. We maken onze code openbaar beschikbaar.

English

Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.