MAAT : Désapprentissage ciblé multi-phase adaptateur-aware

Résumé

L'évaluation du désapprentissage automatique est structurellement biaisée : les questions de type Pourquoi, qui sondent les connaissances causales et relationnelles, représentent moins de 0,06 % de CounterFact, 0,6 % de ZSRE, et moins de 1,3 % de TOFU, MUSE et WMDP-Cyber. Cette représentation quasi nulle signifie que les méthodes qui échouent sur les connaissances causales peuvent obtenir des scores élevés de manière agrégée, et cet échec est indétectable sans une évaluation équilibrée. Nous présentons 5WBENCH, un benchmark équilibré de 5 000 échantillons avec 1 000 exemples par catégorie des 5W (Qui, Quoi, Quand, Où, Pourquoi), rendant pour la première fois les échecs de désapprentissage causal quantifiables. En utilisant 5WBENCH, nous montrons qu'aucune baseline existante n'atteint simultanément un oubli élevé et une rétention élevée sur les questions de type Pourquoi : l'oubli agressif dégrade les connaissances retenues, tandis que les méthodes conservatrices échouent à oublier les faits causaux. La difficulté des questions de type Pourquoi provient de chaînes de raisonnement multi-sauts (44 % des entrées Pourquoi contre moins de 2 % pour les autres) et de la dilution du gradient sur des segments de réponse de 40,1 tokens. Nous présentons MAAT (Multi-phase Adapter-Aware Targeted Unlearning), un cadre en trois phases opérant sur les poids des adaptateurs LoRA, combinant ascension projetée par gradient, élagage des dimensions de rang SVD, négation du vecteur de tâche et réparation hybride de rétention par état caché KL. MAAT est la première méthode à atteindre simultanément un oubli élevé et une rétention élevée sur les connaissances causales de type Pourquoi, atteignant un nouveau point de fonctionnement sur la frontière de Pareto oubli-rétention. Nous rendons notre code publiquement disponible.

English

Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.