Unilogit: 균일 타겟 자기 지식을 활용한 LLM을 위한 강건한 기계 학습 해제 기술
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
May 9, 2025
저자: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI
초록
본 논문은 대규모 언어 모델(Large Language Models)에서의 기계적 망각(machine unlearning)을 위한 새로운 자기 증류(self-distillation) 방법인 Unilogit을 소개한다. Unilogit은 GDPR과 같은 데이터 개인정보 보호 규정 준수를 위해 중요한 과제인, 전반적인 모델 유용성을 유지하면서 특정 정보를 선택적으로 망각하는 문제를 해결한다. 기존의 정적 하이퍼파라미터나 초기 모델 출력에 의존하는 방법과 달리, Unilogit은 대상 토큰에 대한 균일한 확률을 달성하기 위해 대상 로짓(logits)을 동적으로 조정하며, 현재 모델의 출력을 활용하여 더 정확한 자기 증류 목표를 설정한다. 이 접근법은 추가적인 하이퍼파라미터가 필요하지 않을 뿐만 아니라, 모델이 이상적인 목표에 근접하는 능력을 향상시킨다. 공개 벤치마크와 내부 전자상거래 데이터셋에서의 광범위한 실험을 통해 Unilogit이 망각과 유지 목표 간의 균형을 맞추는 데 있어 NPO 및 UnDIAL과 같은 최신 방법들을 능가하는 우수한 성능을 보임을 입증하였다. 또한, 다양한 시나리오에서 Unilogit의 견고성을 분석함으로써, 효과적인 기계적 망각을 달성하는 데 있어 이 방법의 실용적 적용 가능성과 효율성을 강조하였다.
English
This paper introduces Unilogit, a novel self-distillation method for machine
unlearning in Large Language Models. Unilogit addresses the challenge of
selectively forgetting specific information while maintaining overall model
utility, a critical task in compliance with data privacy regulations like GDPR.
Unlike prior methods that rely on static hyperparameters or starting model
outputs, Unilogit dynamically adjusts target logits to achieve a uniform
probability for the target token, leveraging the current model's outputs for
more accurate self-distillation targets. This approach not only eliminates the
need for additional hyperparameters but also enhances the model's ability to
approximate the golden targets. Extensive experiments on public benchmarks and
an in-house e-commerce dataset demonstrate Unilogit's superior performance in
balancing forget and retain objectives, outperforming state-of-the-art methods
such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness
across various scenarios, highlighting its practical applicability and
effectiveness in achieving efficacious machine unlearning.Summary
AI-Generated Summary