ChatPaper.aiChatPaper

WaterDrum: Watermerken voor Data-gedreven Verwijderingsmetriek

WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8, 2025
Auteurs: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI

Samenvatting

Het afleren van grote taalmodellen (LLM) is cruciaal in praktische toepassingen waarbij het noodzakelijk is om de invloed van privé-, auteursrechtelijk beschermde of schadelijke gegevens van sommige gebruikers efficiënt te verwijderen. Bestaande op nut gebaseerde aflermetrieken (gebaseerd op modelnut) kunnen echter tekortschieten bij het nauwkeurig evalueren van de mate van afleren in realistische situaties, zoals wanneer (a) de vergeten en behouden sets semantisch vergelijkbare inhoud hebben, (b) het opnieuw trainen van het model vanaf nul op de behouden set onpraktisch is, en/of (c) de model eigenaar de aflermetriek kan verbeteren zonder direct afleren op het LLM uit te voeren. Dit artikel introduceert de eerste data-gerichte aflermetriek voor LLM's, genaamd WaterDrum, die robuuste tekstwatermerken benut om deze beperkingen te overwinnen. We introduceren ook nieuwe benchmarkdatasets voor LLM-afleren die verschillende niveaus van vergelijkbare datapunten bevatten en kunnen worden gebruikt om afleralgoritmen rigoureus te evalueren met WaterDrum. Onze code is beschikbaar op https://github.com/lululu008/WaterDrum en onze nieuwe benchmarkdatasets zijn vrijgegeven op https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
PDF82May 9, 2025