ChatPaper.aiChatPaper

WaterDrum: データ中心のアンラーニング指標のためのウォーターマーキング

WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8, 2025
著者: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI

要旨

大規模言語モデル(LLM)のアンラーニングは、現実世界のアプリケーションにおいて、特定のユーザーからのプライベートデータ、著作権保護データ、または有害なデータの影響を効率的に除去する必要がある場面で極めて重要です。しかし、既存のユーティリティ中心のアンラーニング指標(モデルの有用性に基づく)は、以下のような現実的な設定において、アンラーニングの程度を正確に評価できない場合があります:(a) 忘却対象データと保持対象データが意味的に類似した内容を含む場合、(b) 保持対象データを用いてモデルをゼロから再訓練することが現実的でない場合、および/または (c) モデル所有者がLLMに対して直接アンラーニングを行わずにアンラーニング指標を改善できる場合です。本論文では、これらの制限を克服するために、堅牢なテキスト透かし技術を活用した初のデータ中心のアンラーニング指標「WaterDrum」を提案します。また、類似データポイントのレベルが異なる新しいベンチマークデータセットを導入し、WaterDrumを使用してアンラーニングアルゴリズムを厳密に評価できるようにしました。私たちのコードはhttps://github.com/lululu008/WaterDrumで公開されており、新しいベンチマークデータセットはhttps://huggingface.co/datasets/Glow-AI/WaterDrum-Axでリリースされています。
English
Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.

Summary

AI-Generated Summary

PDF51May 9, 2025