MAAT: Desaprendizaje Dirigido Multifase Consciente del Adaptador

Resumen

La evaluación del desaprendizaje automático está estructuralmente sesgada: las preguntas de tipo "Por qué", que indagan sobre conocimiento causal y relacional, constituyen menos del 0,06 % de CounterFact, el 0,6 % de ZSRE y menos del 1,3 % de TOFU, MUSE y WMDP-Cyber. Esta representación casi nula implica que los métodos que fallan en conocimiento causal pueden obtener puntuaciones altas de forma agregada, y dicho fallo es indetectable sin una evaluación equilibrada. Presentamos 5WBENCH, un benchmark equilibrado de 5.000 muestras con 1.000 ejemplos por cada categoría de las 5W (Quién, Qué, Cuándo, Dónde, Por qué), lo que permite cuantificar por primera vez los fallos de desaprendizaje causal. Usando 5WBENCH, demostramos que ningún baseline existente logra simultáneamente un alto olvido y una alta retención en preguntas de tipo "Por qué": el olvido agresivo degrada el conocimiento retenido, mientras que los métodos conservadores no logran olvidar hechos causales. La dificultad del tipo "Por qué" proviene de cadenas de razonamiento de múltiples saltos (44 % de las entradas "Por qué" frente a ≤ 2 % para otras) y de la dilución del gradiente en intervalos de respuesta de 40,1 tokens. Presentamos MAAT (Desaprendizaje Dirigido Consciente de Adaptadores Multifase), un marco de tres fases que opera sobre los pesos del adaptador LoRA, combinando ascenso proyectado por gradiente, poda de dimensiones de rango SVD, negación de vectores de tarea y reparación de retención de estado oculto híbrida KL. MAAT es el primer método que logra simultáneamente un alto olvido y una alta retención en conocimiento causal de tipo "Por qué", alcanzando un nuevo punto de operación en la frontera de Pareto olvido-retención. Publicamos nuestro código de forma abierta.

English

Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.