Fácil de Aprender, Difícil de Olvidar: Hacia un Borrado Robusto bajo Sesgo

Resumen

El desaprendizaje automático, que permite a un modelo olvidar datos específicos, es crucial para garantizar la privacidad de los datos y la fiabilidad del modelo. Sin embargo, su eficacia puede verse gravemente socavada en escenarios del mundo real donde los modelos aprenden sesgos no deseados a partir de correlaciones espurias dentro de los datos. Este artículo investiga los desafíos únicos de desaprender a partir de dichos modelos sesgados. Identificamos un fenómeno novedoso que denominamos "desaprendizaje de atajos", donde los modelos exhiben una tendencia "fácil de aprender, pero difícil de olvidar". Específicamente, los modelos tienen dificultades para olvidar muestras fáciles de aprender y alineadas con el sesgo; en lugar de olvidar el atributo de clase, desaprenden el atributo de sesgo, lo que paradójicamente puede mejorar la precisión en la clase que se pretendía olvidar. Para abordar esto, proponemos CUPID, un nuevo marco de desaprendizaje inspirado en la observación de que las muestras con diferentes sesgos exhiben una nitidez distinta del paisaje de pérdidas. Nuestro método primero divide el conjunto a olvidar en subconjuntos aproximados de causal y sesgo basándose en la nitidez de las muestras, luego desentrelaza los parámetros del modelo en vías causales y de sesgo, y finalmente realiza una actualización dirigida enrutando gradientes refinados de causal y sesgo a sus respectivas vías. Experimentos exhaustivos en conjuntos de datos sesgados, incluidos Waterbirds, BAR y Biased NICO++, demuestran que nuestro método logra un rendimiento de olvido state-of-the-art y mitiga efectivamente el problema del desaprendizaje de atajos.

English

Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.

Fácil de Aprender, Difícil de Olvidar: Hacia un Borrado Robusto bajo Sesgo

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Resumen

Support