大規模言語モデルのための実用的なアンラーニング
Practical Unlearning for Large Language Models
July 14, 2024
著者: Chongyang Gao, Lixu Wang, Chenkai Weng, Xiao Wang, Qi Zhu
cs.AI
要旨
大規模言語モデル(LLM)は様々な領域やタスクで印象的な性能を示している一方で、そのセキュリティ上の問題が深刻化しています。機械学習のアンラーニング(MU)は、望ましくないデータの影響を対象モデルから除去しつつ、他の側面での有用性を損なわないという点で、これらの問題に対処する有望な解決策として登場しました。MUは通常、有用性を維持するために元の訓練データへの完全なアクセスを前提としていますが、これはLLMのアンラーニングでは実現が困難です。既存のLLMアンラーニング手法は、望ましくないデータのアンラーニングに最も影響を受けるデータへのアクセスを前提としています。しかし、この前提は様々なLLM能力間の絡み合いを過小評価しており、様々な問題によるデータアクセスの制限を無視しています。さらに、これらのLLMアンラーニング手法は、現実世界のシナリオでアンラーニング要求が継続的に発生することを十分に考慮していません。これらの課題を克服し、実用的なLLMアンラーニングを実現するために、我々はO3フレームワークを提案します。O3フレームワークは、入力とアンラーニングデータの類似度を測定するためのOut-Of-Distribution(OOD)検出器と、要求されたデータを継続的にアンラーニングするための直交低ランクアダプタ(LoRA)を含んでいます。OOD検出器は、新規のコントラスティブエントロピー損失で訓練され、局所-大域層集約スコアリングメカニズムを利用します。直交LoRAは、継続的なアンラーニング要求間のパラメータの分離を実現します。推論時には、O3フレームワークはOOD検出器の予測に基づいて、アンラーニングLoRAをロードするかどうか、またどの程度ロードするかを賢く決定できます。特に、O3の有効性は、保持されたデータに依存しません。我々は、O3と最先端のLLMアンラーニング手法について、3つのタスクと7つのデータセットで広範な実験を行いました。その結果、O3は特に継続的なアンラーニング要求に直面した場合に、アンラーニングの有効性と有用性の維持の間で常に最良のトレードオフを達成することが示されました。
English
While LLMs have demonstrated impressive performance across various domains
and tasks, their security issues have become increasingly severe. Machine
unlearning (MU) has emerged as a promising solution to address these issues by
removing the influence of undesired data on the target model without
compromising its utility in other aspects. MU typically assumes full access to
the original training data to preserve utility, which is difficult to achieve
in LLM unlearning. Existing LLM unlearning methods often assume access to data
most affected by undesired data unlearning. However, this assumption
underestimates the entanglement among various LLM capabilities and ignores data
access limitations due to various issues. Moreover, these LLM unlearning
methods do not sufficiently consider that unlearning requests in real-world
scenarios are continuously emerging. To overcome these challenges and achieve
practical LLM unlearning, we propose the O3 framework. The O3 framework
includes an Out-Of-Distribution (OOD) detector to measure the similarity
between input and unlearning data, and an Orthogonal low-rank adapter (LoRA)
for continuously unlearning requested data. The OOD detector is trained with a
novel contrastive entropy loss and utilizes a local-global layer-aggregated
scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among
continual unlearning requests. During inference, our O3 framework can smartly
decide whether and to what extent to load the unlearning LoRA based on the OOD
detector's predictions. Notably, O3's effectiveness does not rely on any
retained data. We conducted extensive experiments on O3 and state-of-the-art
LLM unlearning methods across three tasks and seven datasets. The results
indicate that O3 consistently achieves the best trade-off between unlearning
effectiveness and utility preservation, especially when facing continuous
unlearning requests.Summary
AI-Generated Summary