Машинное "забывание" для генеративных моделей "изображение в изображение"
Machine Unlearning for Image-to-Image Generative Models
February 1, 2024
Авторы: Guihong Li, Hsiang Hsu, Chun-Fu, Chen, Radu Marculescu
cs.AI
Аннотация
Машинное "забывание" стало новой парадигмой, позволяющей целенаправленно удалять данные из заданной модели для соблюдения строгих нормативных требований. Однако существующие методы машинного забывания в основном были сосредоточены на моделях классификации, оставляя область забывания для генеративных моделей относительно неисследованной. Данная работа служит мостом, заполняя этот пробел, предлагая унифицированную структуру машинного забывания для моделей генерации изображений в изображения. В рамках этой структуры мы предлагаем вычислительно эффективный алгоритм, подкрепленный строгим теоретическим анализом, который демонстрирует незначительное ухудшение производительности на сохраняемых образцах, при этом эффективно удаляя информацию из забываемых образцов. Эмпирические исследования на двух крупномасштабных наборах данных, ImageNet-1K и Places-365, дополнительно показывают, что наш алгоритм не зависит от доступности сохраняемых образцов, что также соответствует политике хранения данных. Насколько нам известно, это первая работа, представляющая систематические теоретические и эмпирические исследования машинного забывания, специально адаптированного для моделей генерации изображений в изображения. Наш код доступен по адресу https://github.com/jpmorganchase/l2l-generator-unlearning.
English
Machine unlearning has emerged as a new paradigm to deliberately forget data
samples from a given model in order to adhere to stringent regulations.
However, existing machine unlearning methods have been primarily focused on
classification models, leaving the landscape of unlearning for generative
models relatively unexplored. This paper serves as a bridge, addressing the gap
by providing a unifying framework of machine unlearning for image-to-image
generative models. Within this framework, we propose a
computationally-efficient algorithm, underpinned by rigorous theoretical
analysis, that demonstrates negligible performance degradation on the retain
samples, while effectively removing the information from the forget samples.
Empirical studies on two large-scale datasets, ImageNet-1K and Places-365,
further show that our algorithm does not rely on the availability of the retain
samples, which further complies with data retention policy. To our best
knowledge, this work is the first that represents systemic, theoretical,
empirical explorations of machine unlearning specifically tailored for
image-to-image generative models. Our code is available at
https://github.com/jpmorganchase/l2l-generator-unlearning.