易学难忘：偏见下的稳健遗忘研究

Abstract

La rimozione di apprendimento automatico (machine unlearning), che consente a un modello di dimenticare dati specifici, è cruciale per garantire la privacy dei dati e l'affidabilità del modello. Tuttavia, la sua efficacia può essere seriamente compromessa in scenari reali in cui i modelli apprendono bias indesiderati da correlazioni spurie all'interno dei dati. Questo articolo investiga le sfide uniche della rimozione dell'apprendimento da tali modelli distorti. Identifichiamo un nuovo fenomeno che definiamo "shortcut unlearning" (rimozione delle scorciatoie), in cui i modelli mostrano una tendenza "facile da apprendere, ma difficile da dimenticare". Nello specifico, i modelli faticano a dimenticare campioni allineati al bias e appresi facilmente; invece di dimenticare l'attributo della classe, rimuovono l'apprendimento dell'attributo del bias, il che può paradossalmente migliorare l'accuratezza sulla classe che si intendeva dimenticare. Per affrontare questo problema, proponiamo CUPID, un nuovo framework per la rimozione dell'apprendimento ispirato dall'osservazione che campioni con bias diversi mostrano una distinta asperità del paesaggio della loss (loss landscape). Il nostro metodo suddivide prima l'insieme da dimenticare in sottoinsiemi approssimati come causali e di bias basandosi sull'asperità del campione, poi separa i parametri del modello in percorsi causali e di bias, e infine esegue un aggiornamento mirato instradando gradienti causali e di bias raffinati ai rispettivi percorsi. Esperimenti estesi su dataset distorti, tra cui Waterbirds, BAR e Biased NICO++, dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella rimozione e mitiga efficacemente il problema della rimozione delle scorciatoie.

English

Machine unlearning, which enables a model to forget specific data, is crucial for ensuring data privacy and model reliability. However, its effectiveness can be severely undermined in real-world scenarios where models learn unintended biases from spurious correlations within the data. This paper investigates the unique challenges of unlearning from such biased models. We identify a novel phenomenon we term ``shortcut unlearning," where models exhibit an ``easy to learn, yet hard to forget" tendency. Specifically, models struggle to forget easily-learned, bias-aligned samples; instead of forgetting the class attribute, they unlearn the bias attribute, which can paradoxically improve accuracy on the class intended to be forgotten. To address this, we propose CUPID, a new unlearning framework inspired by the observation that samples with different biases exhibit distinct loss landscape sharpness. Our method first partitions the forget set into causal- and bias-approximated subsets based on sample sharpness, then disentangles model parameters into causal and bias pathways, and finally performs a targeted update by routing refined causal and bias gradients to their respective pathways. Extensive experiments on biased datasets including Waterbirds, BAR, and Biased NICO++ demonstrate that our method achieves state-of-the-art forgetting performance and effectively mitigates the shortcut unlearning problem.

易学难忘：偏见下的稳健遗忘研究

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Abstract

Support