Machine Unlearning per Modelli Generativi Image-to-Image

Abstract

Il machine unlearning è emerso come un nuovo paradigma per dimenticare intenzionalmente campioni di dati da un determinato modello, al fine di aderire a normative stringenti. Tuttavia, i metodi esistenti di machine unlearning si sono concentrati principalmente su modelli di classificazione, lasciando relativamente inesplorato il panorama del dimenticare per i modelli generativi. Questo articolo funge da ponte, colmando il divario fornendo un quadro unificato di machine unlearning per modelli generativi image-to-image. All'interno di questo quadro, proponiamo un algoritmo computazionalmente efficiente, sostenuto da un'analisi teorica rigorosa, che dimostra un degrado delle prestazioni trascurabile sui campioni da conservare, rimuovendo efficacemente le informazioni dai campioni da dimenticare. Studi empirici su due dataset su larga scala, ImageNet-1K e Places-365, mostrano ulteriormente che il nostro algoritmo non dipende dalla disponibilità dei campioni da conservare, il che è ulteriormente in linea con le politiche di conservazione dei dati. Per quanto ne sappiamo, questo lavoro è il primo che rappresenta esplorazioni sistemiche, teoriche ed empiriche di machine unlearning specificamente progettato per modelli generativi image-to-image. Il nostro codice è disponibile all'indirizzo https://github.com/jpmorganchase/l2l-generator-unlearning.

English

Machine unlearning has emerged as a new paradigm to deliberately forget data samples from a given model in order to adhere to stringent regulations. However, existing machine unlearning methods have been primarily focused on classification models, leaving the landscape of unlearning for generative models relatively unexplored. This paper serves as a bridge, addressing the gap by providing a unifying framework of machine unlearning for image-to-image generative models. Within this framework, we propose a computationally-efficient algorithm, underpinned by rigorous theoretical analysis, that demonstrates negligible performance degradation on the retain samples, while effectively removing the information from the forget samples. Empirical studies on two large-scale datasets, ImageNet-1K and Places-365, further show that our algorithm does not rely on the availability of the retain samples, which further complies with data retention policy. To our best knowledge, this work is the first that represents systemic, theoretical, empirical explorations of machine unlearning specifically tailored for image-to-image generative models. Our code is available at https://github.com/jpmorganchase/l2l-generator-unlearning.

Machine Unlearning per Modelli Generativi Image-to-Image

Machine Unlearning for Image-to-Image Generative Models

Abstract

Support