忘却比較器:機械学習の忘却手法を比較評価するための視覚的分析システム
Unlearning Comparator: A Visual Analytics System for Comparative Evaluation of Machine Unlearning Methods
August 18, 2025
著者: Jaeung Lee, Suhyeon Yu, Yurim Jang, Simon S. Woo, Jaemin Jo
cs.AI
要旨
機械学習の忘却(Machine Unlearning: MU)は、訓練済みモデルから特定の訓練データを削除し、削除されたデータがモデルの挙動に影響を与えないようにすることを目的としています。これは、データプライバシー法における「忘れられる権利」の義務を果たすためです。しかし、この急速に発展している分野の研究者は、特にMUの3つの基本原則である精度、効率性、プライバシーの観点から、異なるMU手法の挙動を分析し理解する上で課題に直面しています。その結果、研究者は集計された指標やアドホックな評価に頼ることが多く、手法間のトレードオフを正確に評価することが困難になっています。このギャップを埋めるため、我々はMU手法の体系的評価を容易にするための視覚的分析システム「Unlearning Comparator」を導入します。我々のシステムは、評価プロセスにおける2つの重要なタスクをサポートします:モデル比較と攻撃シミュレーションです。まず、ユーザーは特定の手法によって生成されたモデルと再訓練されたベースラインモデルなど、2つのモデルの挙動をクラスレベル、インスタンスレベル、レイヤーレベルで比較し、忘却後の変更をより深く理解することができます。次に、我々のシステムはメンバーシップ推論攻撃(Membership Inference Attacks: MIAs)をシミュレートし、攻撃者が特定のデータサンプルが元の訓練セットに含まれていたかどうかを判断しようとする際に、手法のプライバシーを評価します。我々は、主要なMU手法を視覚的に分析するケーススタディを通じてシステムを評価し、ユーザーがモデルの挙動を理解するだけでなく、MU手法の改善に役立つ洞察を得るのに役立つことを示します。
English
Machine Unlearning (MU) aims to remove target training data from a trained
model so that the removed data no longer influences the model's behavior,
fulfilling "right to be forgotten" obligations under data privacy laws. Yet, we
observe that researchers in this rapidly emerging field face challenges in
analyzing and understanding the behavior of different MU methods, especially in
terms of three fundamental principles in MU: accuracy, efficiency, and privacy.
Consequently, they often rely on aggregate metrics and ad-hoc evaluations,
making it difficult to accurately assess the trade-offs between methods. To
fill this gap, we introduce a visual analytics system, Unlearning Comparator,
designed to facilitate the systematic evaluation of MU methods. Our system
supports two important tasks in the evaluation process: model comparison and
attack simulation. First, it allows the user to compare the behaviors of two
models, such as a model generated by a certain method and a retrained baseline,
at class-, instance-, and layer-levels to better understand the changes made
after unlearning. Second, our system simulates membership inference attacks
(MIAs) to evaluate the privacy of a method, where an attacker attempts to
determine whether specific data samples were part of the original training set.
We evaluate our system through a case study visually analyzing prominent MU
methods and demonstrate that it helps the user not only understand model
behaviors but also gain insights that can inform the improvement of MU methods.