Desaprendizaje Automático para Modelos Generativos de Imagen a Imagen

Resumen

El desaprendizaje automático ha surgido como un nuevo paradigma para olvidar deliberadamente muestras de datos de un modelo dado, con el fin de cumplir con regulaciones estrictas. Sin embargo, los métodos existentes de desaprendizaje automático se han centrado principalmente en modelos de clasificación, dejando relativamente inexplorado el panorama del desaprendizaje para modelos generativos. Este artículo sirve como un puente, abordando esta brecha al proporcionar un marco unificador de desaprendizaje automático para modelos generativos de imagen a imagen. Dentro de este marco, proponemos un algoritmo computacionalmente eficiente, respaldado por un análisis teórico riguroso, que demuestra una degradación de rendimiento insignificante en las muestras retenidas, mientras elimina efectivamente la información de las muestras olvidadas. Estudios empíricos en dos conjuntos de datos a gran escala, ImageNet-1K y Places-365, muestran además que nuestro algoritmo no depende de la disponibilidad de las muestras retenidas, lo que cumple aún más con las políticas de retención de datos. Hasta donde sabemos, este trabajo es el primero que representa exploraciones sistémicas, teóricas y empíricas de desaprendizaje automático específicamente adaptado para modelos generativos de imagen a imagen. Nuestro código está disponible en https://github.com/jpmorganchase/l2l-generator-unlearning.

English

Machine unlearning has emerged as a new paradigm to deliberately forget data samples from a given model in order to adhere to stringent regulations. However, existing machine unlearning methods have been primarily focused on classification models, leaving the landscape of unlearning for generative models relatively unexplored. This paper serves as a bridge, addressing the gap by providing a unifying framework of machine unlearning for image-to-image generative models. Within this framework, we propose a computationally-efficient algorithm, underpinned by rigorous theoretical analysis, that demonstrates negligible performance degradation on the retain samples, while effectively removing the information from the forget samples. Empirical studies on two large-scale datasets, ImageNet-1K and Places-365, further show that our algorithm does not rely on the availability of the retain samples, which further complies with data retention policy. To our best knowledge, this work is the first that represents systemic, theoretical, empirical explorations of machine unlearning specifically tailored for image-to-image generative models. Our code is available at https://github.com/jpmorganchase/l2l-generator-unlearning.

Desaprendizaje Automático para Modelos Generativos de Imagen a Imagen

Machine Unlearning for Image-to-Image Generative Models

Resumen

Support