Fácil de Aprender, Difícil de Esquecer: Rumo a um Esquecimento Robusto sob Viés

Resumo

O esquecimento de máquina, que permite a um modelo esquecer dados específicos, é crucial para garantir a privacidade dos dados e a confiabilidade do modelo. No entanto, sua eficácia pode ser severamente comprometida em cenários reais, onde os modelos aprendem vieses não intencionais a partir de correlações espúrias nos dados. Este artigo investiga os desafios únicos de fazer um modelo esquecer a partir de tais modelos enviesados. Identificamos um novo fenômeno que denominamos "esquecimento por atalho" (*shortcut unlearning*), no qual os modelos exibem uma tendência "fácil de aprender, mas difícil de esquecer". Especificamente, os modelos têm dificuldade em esquecer amostras de fácil aprendizado e alinhadas com o viés; em vez de esquecer o atributo da classe, eles esquecem o atributo do viés, o que paradoxalmente pode melhorar a precisão na classe que se pretendia esquecer. Para resolver isso, propomos o CUPID, uma nova estrutura de esquecimento inspirada na observação de que amostras com vieses diferentes exibem nitidez (*sharpness*) distinta na paisagem de perda (*loss landscape*). Nosso método primeiro particiona o conjunto de dados a serem esquecidos em subconjuntos aproximados de causal e viés com base na nitidez das amostras, depois desacopla os parâmetros do modelo em vias causais e de viés, e finalmente executa uma atualização direcionada roteando gradientes refinados de causal e viés para suas respectivas vias. Experimentos extensos em conjuntos de dados enviesados, incluindo Waterbirds, BAR e Biased NICO++, demonstram que nosso método alcança um desempenho de esquecimento state-of-the-art e mitiga efetivamente o problema do esquecimento por atalho.

English

Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.

Fácil de Aprender, Difícil de Esquecer: Rumo a um Esquecimento Robusto sob Viés

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Resumo

Support