MAAT: Desaprendizagem Direcionada Ciente de Adaptadores em Múltiplas Fases

Resumo

A avaliação de machine unlearning é estruturalmente distorcida: perguntas do tipo Porquê, que investigam conhecimento causal e relacional, compreendem menos de 0,06% do CounterFact, 0,6% do ZSRE e menos de 1,3% do TOFU, MUSE e WMDP-Cyber. Essa representação próxima de zero significa que métodos que falham em conhecimento causal podem obter pontuações elevadas no agregado, e essa falha é indetectável sem uma avaliação equilibrada. Apresentamos o 5WBENCH, um benchmark equilibrado com 5.000 amostras, contendo 1.000 exemplos por categoria 5W (Quem, O quê, Quando, Onde, Porquê), tornando quantificáveis, pela primeira vez, as falhas de desaprendizagem causal. Usando o 5WBENCH, mostramos que nenhuma baseline existente atinge simultaneamente alto esquecimento e alta retenção em perguntas do tipo Porquê: o esquecimento agressivo degrada o conhecimento retido, enquanto métodos conservadores falham em esquecer fatos causais. A dificuldade do tipo Porquê decorre de cadeias de raciocínio de múltiplos saltos (44% das entradas Porquê contra menos de ou igual a 2% para as outras) e diluição de gradiente em spans de resposta de 40,1 tokens. Apresentamos o MAAT (Multi-phase Adapter-Aware Targeted Unlearning), um framework de três fases que opera sobre os pesos do adaptador LoRA, combinando ascensão projetada por gradiente, poda de dimensão de rank SVD, negação de vetor de tarefa e reparo de retenção híbrido KL-estado oculto. O MAAT é o primeiro método a alcançar simultaneamente alto esquecimento e alta retenção em conhecimento causal do tipo Porquê, atingindo um novo ponto operacional na fronteira de Pareto de esquecimento-retenção. Disponibilizamos nosso código publicamente.

English

Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.