잊을 것인가, 잊지 않을 것인가? 대규모 언어 모델을 위한 실용적 지식 언러닝을 향하여
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models
July 2, 2024
저자: Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang
cs.AI
초록
광범위한 코퍼스로 훈련된 대형 언어 모델(LLMs)은 필연적으로 개인 정보 및 저작권이 있는 자료와 같은 민감한 데이터를 보유하게 됩니다. 최근의 지식 언러닝(knowledge unlearning) 기술 발전은 특정 지식을 삭제하기 위해 LLM 파라미터를 업데이트하는 방식을 포함합니다. 그러나 현재의 언러닝 패러다임은 모호한 삭제 경계에 얽매여 있어 종종 지식을 무분별하게 삭제하는 문제가 있습니다. 본 연구에서는 저작권이 있는 콘텐츠와 사용자 프라이버시 도메인을 포함한 KnowUnDo 벤치마크를 소개하여, 언러닝 과정에서 필수적인 지식이 의도치 않게 삭제되는지를 평가합니다. 우리의 연구 결과는 기존 언러닝 방법들이 과도한 삭제 문제를 겪고 있음을 보여줍니다. 이를 해결하기 위해, 우리는 그래디언트 정보를 활용하여 민감한 파라미터를 정확히 타겟팅하고 언러닝하는 간단하면서도 효과적인 방법인 MemFlex를 제안합니다. 실험 결과는 MemFlex가 LLM의 정밀한 지식 언러닝과 일반 지식 보존 모두에서 기존 방법들보다 우수함을 보여줍니다. 코드와 데이터셋은 https://github.com/zjunlp/KnowUnDo에서 공개될 예정입니다.
English
Large Language Models (LLMs) trained on extensive corpora inevitably retain
sensitive data, such as personal privacy information and copyrighted material.
Recent advancements in knowledge unlearning involve updating LLM parameters to
erase specific knowledge. However, current unlearning paradigms are mired in
vague forgetting boundaries, often erasing knowledge indiscriminately. In this
work, we introduce KnowUnDo, a benchmark containing copyrighted content and
user privacy domains to evaluate if the unlearning process inadvertently erases
essential knowledge. Our findings indicate that existing unlearning methods
often suffer from excessive unlearning. To address this, we propose a simple
yet effective method, MemFlex, which utilizes gradient information to precisely
target and unlearn sensitive parameters. Experimental results show that MemFlex
is superior to existing methods in both precise knowledge unlearning and
general knowledge retaining of LLMs. Code and dataset will be released at
https://github.com/zjunlp/KnowUnDo.Summary
AI-Generated Summary