MAAT: Многофазное целевое забывание с учетом адаптера

Аннотация

Оценка машинного разучивания структурно смещена: вопросы типа «Почему» (Why-type), исследующие причинно-следственные и реляционные знания, составляют менее 0,06% в CounterFact, 0,6% в ZSRE и менее 1,3% в TOFU, MUSE и WMDP-Cyber. Такая почти нулевая представленность означает, что методы, не справляющиеся с причинно-следственными знаниями, могут получать высокие агрегированные оценки, причем этот сбой остаётся необнаружимым без сбалансированной оценки. Мы представляем 5WBENCH — сбалансированный эталон из 5 000 примеров, содержащий по 1 000 примеров для каждой из 5W-категорий (Кто, Что, Когда, Где, Почему), что впервые позволяет количественно оценить неудачи в разучивании причинно-следственных знаний. Используя 5WBENCH, мы демонстрируем, что ни один существующий базовый метод не достигает одновременно высокой степени забывания и высокой степени сохранения на вопросах типа «Почему»: агрессивное забывание ухудшает сохранённые знания, тогда как консервативные методы не в состоянии забыть причинно-следственные факты. Трудность вопросов типа «Почему» обусловлена многошаговыми цепочками рассуждений (44% записей категории «Почему» против ≤2% для других) и размытием градиента на интервалах ответов длиной 40,1 токена. Мы представляем MAAT (Многофазное целенаправленное разучивание с учётом адаптеров) — трёхфазную структуру, работающую с весами LoRA-адаптеров и объединяющую градиентно-проекционное восхождение, SVD-сокращение ранговых размерностей, отрицание векторов задач и гибридное KL-восстановление сохранности скрытых состояний. MAAT — первый метод, одновременно обеспечивающий высокое забывание и высокое сохранение на причинно-следственных знаниях типа «Почему», достигая новой рабочей точки на границе Парето между забыванием и сохранением. Мы публикуем наш код в открытом доступе.

English

Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.