Desaprendizado de Máquina para Modelos Gerativos de Imagem para Imagem
Machine Unlearning for Image-to-Image Generative Models
February 1, 2024
Autores: Guihong Li, Hsiang Hsu, Chun-Fu, Chen, Radu Marculescu
cs.AI
Resumo
O esquecimento de máquina surgiu como um novo paradigma para esquecer deliberadamente amostras de dados de um determinado modelo, a fim de aderir a regulamentações rigorosas. No entanto, os métodos existentes de esquecimento de máquina têm se concentrado principalmente em modelos de classificação, deixando o cenário de esquecimento para modelos generativos relativamente inexplorado. Este artigo serve como uma ponte, abordando essa lacuna ao fornecer uma estrutura unificadora de esquecimento de máquina para modelos generativos de imagem para imagem. Dentro dessa estrutura, propomos um algoritmo computacionalmente eficiente, respaldado por uma análise teórica rigorosa, que demonstra degradação de desempenho insignificante nas amostras retidas, enquanto remove efetivamente as informações das amostras esquecidas. Estudos empíricos em dois conjuntos de dados em larga escala, ImageNet-1K e Places-365, mostram ainda que nosso algoritmo não depende da disponibilidade das amostras retidas, o que está em conformidade com a política de retenção de dados. Até onde sabemos, este trabalho é o primeiro a representar explorações sistêmicas, teóricas e empíricas de esquecimento de máquina especificamente adaptadas para modelos generativos de imagem para imagem. Nosso código está disponível em https://github.com/jpmorganchase/l2l-generator-unlearning.
English
Machine unlearning has emerged as a new paradigm to deliberately forget data
samples from a given model in order to adhere to stringent regulations.
However, existing machine unlearning methods have been primarily focused on
classification models, leaving the landscape of unlearning for generative
models relatively unexplored. This paper serves as a bridge, addressing the gap
by providing a unifying framework of machine unlearning for image-to-image
generative models. Within this framework, we propose a
computationally-efficient algorithm, underpinned by rigorous theoretical
analysis, that demonstrates negligible performance degradation on the retain
samples, while effectively removing the information from the forget samples.
Empirical studies on two large-scale datasets, ImageNet-1K and Places-365,
further show that our algorithm does not rely on the availability of the retain
samples, which further complies with data retention policy. To our best
knowledge, this work is the first that represents systemic, theoretical,
empirical explorations of machine unlearning specifically tailored for
image-to-image generative models. Our code is available at
https://github.com/jpmorganchase/l2l-generator-unlearning.