Makkelijk te Leren, Moeilijk te Vergeten: Op Weg naar Robuste Verwijdering Onder Bias

Samenvatting

Machine unlearning, dat een model in staat stelt specifieke data te vergeten, is cruciaal voor het waarborgen van gegevensprivacy en modelbetrouwbaarheid. De effectiviteit ervan kan echter ernstig worden ondermijnd in realistische scenario's waarin modellen onbedoelde vooroordelen leren uit spurious correlaties in de data. Dit artikel onderzoekt de unieke uitdagingen van het verwijderen van kennis uit dergelijke bevooroordeelde modellen. Wij identificeren een nieuw fenomeen dat we "shortcut unlearning" noemen, waarbij modellen een "makkelijk aan te leren, maar moeilijk te vergeten" tendens vertonen. Specifiek worstelen modellen met het vergeten van makkelijk aan te leren, bias-conforme voorbeelden; in plaats van het klasse-attribuut te vergeten, vergeten ze het bias-attribuut, wat paradoxaal genoeg de nauwkeurigheid op de te vergeten klasse kan verbeteren. Om dit aan te pakken, stellen we CUPID voor, een nieuw unlearning-raamwerk geïnspireerd door de observatie dat voorbeelden met verschillende biases een onderscheidende scherpte van het loss-landschap vertonen. Onze methode deelt eerst de te vergeten set op in causaal- en bias-geapproxeerde subsets op basis van sample-scherpte, ontwart vervolgens modelparameters in causale en bias-paden, en voert ten slotte een gerichte update uit door verfijnde causale en bias-gradiënten naar hun respectievelijke paden te routeren. Uitgebreide experimenten op bevooroordeelde datasets, waaronder Waterbirds, BAR en Biased NICO++, tonen aan dat onze methode state-of-the-art prestaties bereikt bij het vergeten en het shortcut unlearning-probleem effectief vermindert.

English

Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.

Makkelijk te Leren, Moeilijk te Vergeten: Op Weg naar Robuste Verwijdering Onder Bias

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Samenvatting

Support