Facile à Apprendre, Difficile à Oublier : Vers un Désapprentissage Robuste Face aux Biais
Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias
February 25, 2026
Auteurs: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Yoonji Lee, Seunghoon Lee, YoungBin Kim
cs.AI
Résumé
L'oubli machine, qui permet à un modèle d'oublier des données spécifiques, est crucial pour garantir la confidentialité des données et la fiabilité des modèles. Cependant, son efficacité peut être gravement compromise dans des scénarios réels où les modèles apprennent des biais non intentionnels à partir de corrélations fallacieuses dans les données. Cet article étudie les défis spécifiques de l'oubli à partir de tels modèles biaisés. Nous identifions un nouveau phénomène que nous appelons « oubli du raccourci », où les modèles présentent une tendance « facile à apprendre, mais difficile à oublier ». Plus précisément, les modèles ont du mal à oublier les exemples faciles à apprendre et alignés sur le biais ; au lieu d'oublier l'attribut de classe, ils désapprennent l'attribut de biais, ce qui peut paradoxalement améliorer la précision sur la classe censée être oubliée. Pour remédier à cela, nous proposons CUPID, un nouveau cadre d'oubli inspiré par l'observation que les échantillons avec des biais différents présentent une netteté distincte du paysage de perte. Notre méthode partitionne d'abord l'ensemble à oublier en sous-ensembles approximatifs causal et biaisé basés sur la netteté des échantillons, puis désentremêle les paramètres du modèle en voies causales et biaisées, et enfin effectue une mise à jour ciblée en acheminant des gradients causaux et biaisés raffinés vers leurs voies respectives. Des expériences approfondies sur des ensembles de données biaisés, notamment Waterbirds, BAR et Biased NICO++, démontrent que notre méthode atteint des performances d'oubli à la pointe de l'état de l'art et atténue efficacement le problème de l'oubli du raccourci.
English
Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.