Легко научиться, но трудно забыть: к устойчивому удалению знаний в условиях смещений

Аннотация

Машинное «разучивание» (machine unlearning), позволяющее модели забывать определенные данные, играет ключевую роль в обеспечении конфиденциальности данных и надежности моделей. Однако его эффективность может быть серьезно подорвана в реальных сценариях, когда модели усваивают непреднамеренные смещения из-за ложных корреляций в данных. В данной статье исследуются уникальные проблемы, связанные с «разучиванием» таких смещенных моделей. Мы выявляем новое явление, названное нами «разучиванием по кратчайшему пути» (shortcut unlearning), при котором модели демонстрируют тенденцию «легко научиться, но трудно забыть». В частности, модели с трудом забывают легко усваиваемые примеры, согласованные со смещением; вместо того чтобы забывать атрибут класса, они «разучивают» атрибут смещения, что парадоксальным образом может повысить точность на классе, который предполагалось забыть. Для решения этой проблемы мы предлагаем CUPID — новую структуру для «разучивания», основанную на наблюдении, что примеры с разными смещениями демонстрируют различную остроту ландшафта потерь. Наш метод сначала разделяет набор на забывание на причинно-обусловленное и приближенно-смещенное подмножества на основе остроты примеров, затем разделяет параметры модели на причинный и смещенный пути и, наконец, выполняет целевое обновление, направляя уточненные причинные и смещенные градиенты по соответствующим путям. Многочисленные эксперименты на смещенных наборах данных, включая Waterbirds, BAR и Biased NICO++, демонстрируют, что наш метод достигает передовых показателей забывания и эффективно смягчает проблему «разучивания по кратчайшему пути».

English

Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.

Легко научиться, но трудно забыть: к устойчивому удалению знаний в условиях смещений

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Аннотация

Support