언러닝 비교 분석기: 머신 언러닝 방법의 비교 평가를 위한 시각적 분석 시스템
Unlearning Comparator: A Visual Analytics System for Comparative Evaluation of Machine Unlearning Methods
August 18, 2025
저자: Jaeung Lee, Suhyeon Yu, Yurim Jang, Simon S. Woo, Jaemin Jo
cs.AI
초록
머신 언러닝(Machine Unlearning, MU)은 훈련된 모델에서 특정 훈련 데이터를 제거하여 제거된 데이터가 더 이상 모델의 동작에 영향을 미치지 않도록 하는 것을 목표로 합니다. 이는 데이터 개인정보 보호법상 "잊혀질 권리" 의무를 이행하기 위한 것입니다. 그러나 이 급속히 부상하는 분야의 연구자들은 정확성, 효율성, 개인정보 보호라는 MU의 세 가지 기본 원칙 측면에서 다양한 MU 방법의 동작을 분석하고 이해하는 데 어려움을 겪고 있습니다. 결과적으로, 그들은 종종 집계 지표와 임시 평가에 의존하게 되며, 이는 방법 간의 트레이드오프를 정확히 평가하기 어렵게 만듭니다. 이러한 격차를 메우기 위해, 우리는 MU 방법의 체계적인 평가를 용이하게 하기 위해 설계된 시각적 분석 시스템인 언러닝 비교기(Unlearning Comparator)를 소개합니다. 우리의 시스템은 평가 과정에서 두 가지 중요한 작업을 지원합니다: 모델 비교와 공격 시뮬레이션입니다. 먼저, 이 시스템은 사용자가 특정 방법으로 생성된 모델과 재훈련된 기준 모델과 같은 두 모델의 동작을 클래스, 인스턴스, 레이어 수준에서 비교하여 언러닝 후의 변화를 더 잘 이해할 수 있도록 합니다. 둘째, 우리의 시스템은 멤버십 추론 공격(Membership Inference Attacks, MIAs)을 시뮬레이션하여 특정 데이터 샘플이 원래 훈련 세트의 일부였는지를 판단하려는 공격자의 시도를 통해 방법의 개인정보 보호 수준을 평가합니다. 우리는 주요 MU 방법을 시각적으로 분석하는 사례 연구를 통해 시스템을 평가하고, 이 시스템이 사용자가 모델 동작을 이해할 뿐만 아니라 MU 방법의 개선에 대한 통찰을 얻는 데 도움이 된다는 것을 입증합니다.
English
Machine Unlearning (MU) aims to remove target training data from a trained
model so that the removed data no longer influences the model's behavior,
fulfilling "right to be forgotten" obligations under data privacy laws. Yet, we
observe that researchers in this rapidly emerging field face challenges in
analyzing and understanding the behavior of different MU methods, especially in
terms of three fundamental principles in MU: accuracy, efficiency, and privacy.
Consequently, they often rely on aggregate metrics and ad-hoc evaluations,
making it difficult to accurately assess the trade-offs between methods. To
fill this gap, we introduce a visual analytics system, Unlearning Comparator,
designed to facilitate the systematic evaluation of MU methods. Our system
supports two important tasks in the evaluation process: model comparison and
attack simulation. First, it allows the user to compare the behaviors of two
models, such as a model generated by a certain method and a retrained baseline,
at class-, instance-, and layer-levels to better understand the changes made
after unlearning. Second, our system simulates membership inference attacks
(MIAs) to evaluate the privacy of a method, where an attacker attempts to
determine whether specific data samples were part of the original training set.
We evaluate our system through a case study visually analyzing prominent MU
methods and demonstrate that it helps the user not only understand model
behaviors but also gain insights that can inform the improvement of MU methods.