WaterDrum: Watermerken voor Data-gedreven Verwijderingsmetriek
WaterDrum: Watermarking for Data-centric Unlearning Metric
May 8, 2025
Auteurs: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI
Samenvatting
Het afleren van grote taalmodellen (LLM) is cruciaal in praktische toepassingen
waarbij het noodzakelijk is om de invloed van privé-, auteursrechtelijk beschermde
of schadelijke gegevens van sommige gebruikers efficiënt te verwijderen. Bestaande
op nut gebaseerde aflermetrieken (gebaseerd op modelnut) kunnen echter tekortschieten
bij het nauwkeurig evalueren van de mate van afleren in realistische situaties, zoals
wanneer (a) de vergeten en behouden sets semantisch vergelijkbare inhoud hebben, (b)
het opnieuw trainen van het model vanaf nul op de behouden set onpraktisch is, en/of
(c) de model eigenaar de aflermetriek kan verbeteren zonder direct afleren op het LLM
uit te voeren. Dit artikel introduceert de eerste data-gerichte aflermetriek voor LLM's,
genaamd WaterDrum, die robuuste tekstwatermerken benut om deze beperkingen te overwinnen.
We introduceren ook nieuwe benchmarkdatasets voor LLM-afleren die verschillende niveaus
van vergelijkbare datapunten bevatten en kunnen worden gebruikt om afleralgoritmen rigoureus
te evalueren met WaterDrum. Onze code is beschikbaar op https://github.com/lululu008/WaterDrum
en onze nieuwe benchmarkdatasets zijn vrijgegeven op https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications
where it is necessary to efficiently remove the influence of private,
copyrighted, or harmful data from some users. However, existing utility-centric
unlearning metrics (based on model utility) may fail to accurately evaluate the
extent of unlearning in realistic settings such as when (a) the forget and
retain set have semantically similar content, (b) retraining the model from
scratch on the retain set is impractical, and/or (c) the model owner can
improve the unlearning metric without directly performing unlearning on the
LLM. This paper presents the first data-centric unlearning metric for LLMs
called WaterDrum that exploits robust text watermarking for overcoming these
limitations. We also introduce new benchmark datasets for LLM unlearning that
contain varying levels of similar data points and can be used to rigorously
evaluate unlearning algorithms using WaterDrum. Our code is available at
https://github.com/lululu008/WaterDrum and our new benchmark datasets are
released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.