ChatPaper.aiChatPaper

WaterDrum: Водяной знак для метрики удаления данных в центрированных на данных системах

WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8, 2025
Авторы: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI

Аннотация

Удаление данных в больших языковых моделях (LLM) имеет критическое значение для реальных приложений, где необходимо эффективно устранить влияние частных, защищённых авторским правом или вредоносных данных для некоторых пользователей. Однако существующие метрики удаления, ориентированные на полезность модели, могут неадекватно оценивать степень удаления в реалистичных сценариях, таких как случаи, когда (а) наборы данных для удаления и сохранения содержат семантически схожий контент, (б) переобучение модели с нуля на наборе данных для сохранения непрактично, и/или (в) владелец модели может улучшить метрику удаления без непосредственного выполнения удаления в LLM. В данной статье представлена первая метрика удаления, ориентированная на данные, под названием WaterDrum, которая использует устойчивое текстовое водяное знаки для преодоления этих ограничений. Мы также представляем новые эталонные наборы данных для удаления в LLM, содержащие различные уровни схожих точек данных, которые могут быть использованы для строгой оценки алгоритмов удаления с помощью WaterDrum. Наш код доступен по адресу https://github.com/lululu008/WaterDrum, а новые эталонные наборы данных опубликованы на https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.

Summary

AI-Generated Summary

PDF51May 9, 2025