Desaprendizaje Automático para Modelos Generativos de Imagen a Imagen
Machine Unlearning for Image-to-Image Generative Models
February 1, 2024
Autores: Guihong Li, Hsiang Hsu, Chun-Fu, Chen, Radu Marculescu
cs.AI
Resumen
El desaprendizaje automático ha surgido como un nuevo paradigma para olvidar deliberadamente muestras de datos de un modelo dado, con el fin de cumplir con regulaciones estrictas. Sin embargo, los métodos existentes de desaprendizaje automático se han centrado principalmente en modelos de clasificación, dejando relativamente inexplorado el panorama del desaprendizaje para modelos generativos. Este artículo sirve como un puente, abordando esta brecha al proporcionar un marco unificador de desaprendizaje automático para modelos generativos de imagen a imagen. Dentro de este marco, proponemos un algoritmo computacionalmente eficiente, respaldado por un análisis teórico riguroso, que demuestra una degradación de rendimiento insignificante en las muestras retenidas, mientras elimina efectivamente la información de las muestras olvidadas. Estudios empíricos en dos conjuntos de datos a gran escala, ImageNet-1K y Places-365, muestran además que nuestro algoritmo no depende de la disponibilidad de las muestras retenidas, lo que cumple aún más con las políticas de retención de datos. Hasta donde sabemos, este trabajo es el primero que representa exploraciones sistémicas, teóricas y empíricas de desaprendizaje automático específicamente adaptado para modelos generativos de imagen a imagen. Nuestro código está disponible en https://github.com/jpmorganchase/l2l-generator-unlearning.
English
Machine unlearning has emerged as a new paradigm to deliberately forget data
samples from a given model in order to adhere to stringent regulations.
However, existing machine unlearning methods have been primarily focused on
classification models, leaving the landscape of unlearning for generative
models relatively unexplored. This paper serves as a bridge, addressing the gap
by providing a unifying framework of machine unlearning for image-to-image
generative models. Within this framework, we propose a
computationally-efficient algorithm, underpinned by rigorous theoretical
analysis, that demonstrates negligible performance degradation on the retain
samples, while effectively removing the information from the forget samples.
Empirical studies on two large-scale datasets, ImageNet-1K and Places-365,
further show that our algorithm does not rely on the availability of the retain
samples, which further complies with data retention policy. To our best
knowledge, this work is the first that represents systemic, theoretical,
empirical explorations of machine unlearning specifically tailored for
image-to-image generative models. Our code is available at
https://github.com/jpmorganchase/l2l-generator-unlearning.