忘れるべきか、忘れざるべきか？大規模言語モデルのための実用的な知識忘却に向けて

要旨

大規模言語モデル（LLMs）は、膨大なコーパスで学習されるため、個人のプライバシー情報や著作権保護されたコンテンツなどの機微なデータを保持せざるを得ません。最近の知識忘却技術の進展では、特定の知識を消去するためにLLMのパラメータを更新する手法が提案されています。しかし、現在の忘却パラダイムは曖昧な忘却境界に悩まされており、しばしば知識を無差別に消去してしまう問題があります。本研究では、著作権コンテンツとユーザープライバシーの領域を含むベンチマーク「KnowUnDo」を導入し、忘却プロセスが意図せずに重要な知識を消去してしまうかどうかを評価します。我々の調査結果によると、既存の忘却手法は過剰な忘却に陥りがちです。この問題に対処するため、勾配情報を利用して機微なパラメータを正確にターゲットし忘却する、シンプルかつ効果的な手法「MemFlex」を提案します。実験結果は、MemFlexがLLMの正確な知識忘却と一般的な知識保持の両面において、既存手法を凌駕することを示しています。コードとデータセットはhttps://github.com/zjunlp/KnowUnDoで公開予定です。

English

Large Language Models (LLMs) trained on extensive corpora inevitably retain sensitive data, such as personal privacy information and copyrighted material. Recent advancements in knowledge unlearning involve updating LLM parameters to erase specific knowledge. However, current unlearning paradigms are mired in vague forgetting boundaries, often erasing knowledge indiscriminately. In this work, we introduce KnowUnDo, a benchmark containing copyrighted content and user privacy domains to evaluate if the unlearning process inadvertently erases essential knowledge. Our findings indicate that existing unlearning methods often suffer from excessive unlearning. To address this, we propose a simple yet effective method, MemFlex, which utilizes gradient information to precisely target and unlearn sensitive parameters. Experimental results show that MemFlex is superior to existing methods in both precise knowledge unlearning and general knowledge retaining of LLMs. Code and dataset will be released at https://github.com/zjunlp/KnowUnDo.

忘れるべきか、忘れざるべきか？大規模言語モデルのための実用的な知識忘却に向けて

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

要旨

Support