Einfach zu Erlernen, doch schwer zu Vergessen: Auf dem Weg zu robustem Verlernen unter Verzerrung
Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias
February 25, 2026
Autoren: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Yoonji Lee, Seunghoon Lee, YoungBin Kim
cs.AI
Zusammenfassung
Machine Unlearning, das es einem Modell ermöglicht, bestimmte Daten zu vergessen, ist entscheidend für die Gewährleistung von Datenschutz und Modellzuverlässigkeit. Seine Wirksamkeit kann jedoch in realen Szenarien erheblich beeinträchtigt werden, in denen Modelle unbeabsichtigte Verzerrungen aus scheinbaren Korrelationen in den Daten erlernen. Diese Arbeit untersucht die besonderen Herausforderungen des Verlernens aus solchen verzerrten Modellen. Wir identifizieren ein neuartiges Phänomen, das wir als „Shortcut Unlearning“ bezeichnen, bei dem Modelle eine Tendenz zeigen, die als „leicht zu erlernen, aber schwer zu vergessen“ charakterisiert werden kann. Konkret fällt es Modellen schwer, einfach zu erlernende, verzerrungsbegünstigte Stichproben zu vergessen; anstatt das Klassenattribut zu verlernen, verlernen sie das Verzerrungsattribut, was paradoxerweise die Genauigkeit für die Klasse, die vergessen werden soll, verbessern kann. Um dieses Problem zu lösen, schlagen wir CUPID vor, einen neuen Verlernens-Ansatz, der auf der Beobachtung basiert, dass Stichproben mit unterschiedlichen Verzerrungen eine unterschiedliche Schärfe der Verlustlandschaft aufweisen. Unsere Methode unterteilt zunächst die zu vergessende Menge anhand der Schärfe der Stichproben in causal- und bias-approximierte Teilmengen, entwirrt dann die Modellparameter in kausale und Verzerrungspfade und führt schließlich eine gezielte Aktualisierung durch, indem verfeinerte kausale und Verzerrungsgradienten an ihre jeweiligen Pfade weitergeleitet werden. Umfangreiche Experimente mit verzerrten Datensätzen, darunter Waterbirds, BAR und Biased NICO++, zeigen, dass unsere Methode state-of-the-art Verlernleistung erreicht und das Problem des Shortcut Unlearning effektiv mildert.
English
Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.