学びやすく、忘れにくい:バイアス下におけるロバストな忘却学習の実現に向けて
Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias
February 25, 2026
著者: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Yoonji Lee, Seunghoon Lee, YoungBin Kim
cs.AI
要旨
機械的忘却(マシンアンラーニング)は、モデルが特定のデータを忘れることを可能にする技術であり、データプライバシーとモデルの信頼性を確保する上で極めて重要である。しかし現実のシナリオでは、モデルがデータ内の疑似相関から意図しないバイアスを学習する場合、その有効性が大きく損なわれる可能性がある。本論文では、このようなバイアスのかかったモデルからの忘却に伴う特有の課題を検討する。我々は「ショートカット忘却」と名付けた新規現象を特定した。これはモデルが「学習は容易だが、忘却は困難」という傾向を示す現象である。具体的には、モデルは容易に学習されたバイアス整合的なサンプルを忘れることに苦戦し、忘却対象のクラス属性ではなくバイアス属性を忘却する。これが逆説的に、忘却対象クラスにおける精度を向上させる場合がある。この問題に対処するため、異なるバイアスを持つサンプルが損失ランドスケープの鋭敏性に違いを示すという観察に基づき、新たな忘却フレームワークCUPIDを提案する。本手法ではまず、サンプルの鋭敏性に基づいて忘却セットを因果近似サブセットとバイアス近似サブセットに分割し、次にモデルパラメータを因果経路とバイアス経路に分離し、最後に精緻化された因果勾配とバイアス勾配をそれぞれの経路にルーティングすることで、標的型の更新を行う。Waterbirds、BAR、Biased NICO++などのバイアスデータセットを用いた大規模な実験により、本手法が最先端の忘却性能を達成し、ショートカット忘却問題を効果的に軽減することを実証した。
English
Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.