画像生成モデルにおけるマシンアンラーニング
Machine Unlearning for Image-to-Image Generative Models
February 1, 2024
著者: Guihong Li, Hsiang Hsu, Chun-Fu, Chen, Radu Marculescu
cs.AI
要旨
機械学習の「忘却学習(Machine Unlearning)」は、厳格な規制に準拠するために、特定のモデルからデータサンプルを意図的に忘れる新しいパラダイムとして登場しました。しかし、既存の忘却学習手法は主に分類モデルに焦点を当てており、生成モデルにおける忘却学習の領域は比較的未開拓のままです。本論文はこのギャップを埋める架け橋として、画像から画像への生成モデルに対する忘却学習の統一的なフレームワークを提供します。このフレームワーク内で、我々は計算効率の良いアルゴリズムを提案し、厳密な理論分析に基づいて、保持サンプルにおける性能劣化を無視できるレベルに抑えつつ、忘却サンプルからの情報を効果的に除去することを実証します。ImageNet-1KとPlaces-365という2つの大規模データセットを用いた実証研究では、我々のアルゴリズムが保持サンプルの可用性に依存しないことも示されており、これはデータ保持ポリシーにさらに適合しています。我々の知る限り、本論文は画像から画像への生成モデルに特化した忘却学習の体系的、理論的、実証的探求を初めて提示するものです。コードはhttps://github.com/jpmorganchase/l2l-generator-unlearningで公開されています。
English
Machine unlearning has emerged as a new paradigm to deliberately forget data
samples from a given model in order to adhere to stringent regulations.
However, existing machine unlearning methods have been primarily focused on
classification models, leaving the landscape of unlearning for generative
models relatively unexplored. This paper serves as a bridge, addressing the gap
by providing a unifying framework of machine unlearning for image-to-image
generative models. Within this framework, we propose a
computationally-efficient algorithm, underpinned by rigorous theoretical
analysis, that demonstrates negligible performance degradation on the retain
samples, while effectively removing the information from the forget samples.
Empirical studies on two large-scale datasets, ImageNet-1K and Places-365,
further show that our algorithm does not rely on the availability of the retain
samples, which further complies with data retention policy. To our best
knowledge, this work is the first that represents systemic, theoretical,
empirical explorations of machine unlearning specifically tailored for
image-to-image generative models. Our code is available at
https://github.com/jpmorganchase/l2l-generator-unlearning.