WaterDrum: 데이터 중심 언러닝 메트릭을 위한 워터마킹
WaterDrum: Watermarking for Data-centric Unlearning Metric
May 8, 2025
저자: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI
초록
대형 언어 모델(LLM)의 언러닝은 실제 응용 프로그램에서 특정 사용자의 개인 정보, 저작권이 있는 데이터 또는 유해한 데이터의 영향을 효율적으로 제거해야 하는 경우에 매우 중요합니다. 그러나 기존의 유틸리티 중심 언러닝 메트릭(모델 유틸리티 기반)은 다음과 같은 현실적인 설정에서 언러닝의 정도를 정확히 평가하지 못할 수 있습니다: (a) 잊어야 할 데이터와 유지해야 할 데이터가 의미적으로 유사한 내용을 포함하는 경우, (b) 유지 데이터 세트를 기반으로 모델을 처음부터 재훈련하는 것이 비현실적인 경우, (c) 모델 소유자가 LLM에 직접 언러닝을 수행하지 않고도 언러닝 메트릭을 개선할 수 있는 경우 등입니다. 본 논문은 이러한 한계를 극복하기 위해 강력한 텍스트 워터마킹을 활용한 최초의 데이터 중심 언러닝 메트릭인 WaterDrum을 제안합니다. 또한, 다양한 수준의 유사 데이터 포인트를 포함하며 WaterDrum을 사용하여 언러닝 알고리즘을 엄격히 평가할 수 있는 새로운 벤치마크 데이터 세트를 소개합니다. 우리의 코드는 https://github.com/lululu008/WaterDrum에서 확인할 수 있으며, 새로운 벤치마크 데이터 세트는 https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax에서 공개되었습니다.
English
Large language model (LLM) unlearning is critical in real-world applications
where it is necessary to efficiently remove the influence of private,
copyrighted, or harmful data from some users. However, existing utility-centric
unlearning metrics (based on model utility) may fail to accurately evaluate the
extent of unlearning in realistic settings such as when (a) the forget and
retain set have semantically similar content, (b) retraining the model from
scratch on the retain set is impractical, and/or (c) the model owner can
improve the unlearning metric without directly performing unlearning on the
LLM. This paper presents the first data-centric unlearning metric for LLMs
called WaterDrum that exploits robust text watermarking for overcoming these
limitations. We also introduce new benchmark datasets for LLM unlearning that
contain varying levels of similar data points and can be used to rigorously
evaluate unlearning algorithms using WaterDrum. Our code is available at
https://github.com/lululu008/WaterDrum and our new benchmark datasets are
released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.Summary
AI-Generated Summary