忘れるべきか、忘れざるべきか?大規模言語モデルのための実用的な知識忘却に向けて
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models
July 2, 2024
著者: Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang
cs.AI
要旨
大規模言語モデル(LLMs)は、膨大なコーパスで学習されるため、個人のプライバシー情報や著作権保護されたコンテンツなどの機微なデータを保持せざるを得ません。最近の知識忘却技術の進展では、特定の知識を消去するためにLLMのパラメータを更新する手法が提案されています。しかし、現在の忘却パラダイムは曖昧な忘却境界に悩まされており、しばしば知識を無差別に消去してしまう問題があります。本研究では、著作権コンテンツとユーザープライバシーの領域を含むベンチマーク「KnowUnDo」を導入し、忘却プロセスが意図せずに重要な知識を消去してしまうかどうかを評価します。我々の調査結果によると、既存の忘却手法は過剰な忘却に陥りがちです。この問題に対処するため、勾配情報を利用して機微なパラメータを正確にターゲットし忘却する、シンプルかつ効果的な手法「MemFlex」を提案します。実験結果は、MemFlexがLLMの正確な知識忘却と一般的な知識保持の両面において、既存手法を凌駕することを示しています。コードとデータセットはhttps://github.com/zjunlp/KnowUnDoで公開予定です。
English
Large Language Models (LLMs) trained on extensive corpora inevitably retain
sensitive data, such as personal privacy information and copyrighted material.
Recent advancements in knowledge unlearning involve updating LLM parameters to
erase specific knowledge. However, current unlearning paradigms are mired in
vague forgetting boundaries, often erasing knowledge indiscriminately. In this
work, we introduce KnowUnDo, a benchmark containing copyrighted content and
user privacy domains to evaluate if the unlearning process inadvertently erases
essential knowledge. Our findings indicate that existing unlearning methods
often suffer from excessive unlearning. To address this, we propose a simple
yet effective method, MemFlex, which utilizes gradient information to precisely
target and unlearn sensitive parameters. Experimental results show that MemFlex
is superior to existing methods in both precise knowledge unlearning and
general knowledge retaining of LLMs. Code and dataset will be released at
https://github.com/zjunlp/KnowUnDo.Summary
AI-Generated Summary