Unilogit: 均一ターゲット自己蒸留を用いた大規模言語モデルのための堅牢な機械的忘却
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
May 9, 2025
著者: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI
要旨
本論文では、大規模言語モデルにおける機械的忘却のための新しい自己蒸留手法であるUnilogitを紹介する。Unilogitは、GDPRのようなデータプライバシー規制に準拠する上で重要な課題である、特定の情報を選択的に忘却しながらモデルの全体的な有用性を維持するという課題に取り組む。従来の手法が静的ハイパーパラメータや初期モデルの出力に依存していたのに対し、Unilogitはターゲットトークンの一様な確率を達成するためにターゲットロジットを動的に調整し、現在のモデルの出力を活用してより正確な自己蒸留ターゲットを実現する。このアプローチは、追加のハイパーパラメータを必要としないだけでなく、モデルがゴールデンターゲットに近似する能力を向上させる。公開ベンチマークおよび社内のeコマースデータセットを用いた広範な実験により、Unilogitが忘却と保持の目的をバランス良く達成する優れた性能を示し、NPOやUnDIALなどの最先端手法を凌駕することが実証された。さらに、我々の分析は、Unilogitが様々なシナリオにおいて堅牢であることを明らかにし、実用的な適用可能性と効果的な機械的忘却を達成する上での有効性を強調している。
English
This paper introduces Unilogit, a novel self-distillation method for machine
unlearning in Large Language Models. Unilogit addresses the challenge of
selectively forgetting specific information while maintaining overall model
utility, a critical task in compliance with data privacy regulations like GDPR.
Unlike prior methods that rely on static hyperparameters or starting model
outputs, Unilogit dynamically adjusts target logits to achieve a uniform
probability for the target token, leveraging the current model's outputs for
more accurate self-distillation targets. This approach not only eliminates the
need for additional hyperparameters but also enhances the model's ability to
approximate the golden targets. Extensive experiments on public benchmarks and
an in-house e-commerce dataset demonstrate Unilogit's superior performance in
balancing forget and retain objectives, outperforming state-of-the-art methods
such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness
across various scenarios, highlighting its practical applicability and
effectiveness in achieving efficacious machine unlearning.Summary
AI-Generated Summary