ChatPaper.aiChatPaper

WaterDrum: Wasserzeichenverfahren für datenzentrierte Verlernmetriken

WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8, 2025
Autoren: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI

Zusammenfassung

Das Verlernen (Unlearning) bei großen Sprachmodellen (LLMs) ist in realen Anwendungen von entscheidender Bedeutung, insbesondere wenn es notwendig ist, den Einfluss privater, urheberrechtlich geschützter oder schädlicher Daten effizient zu entfernen. Allerdings können bestehende nutzenorientierte Verlernmetriken (basierend auf der Modellnutzung) in realistischen Szenarien versagen, um das Ausmaß des Verlernens genau zu bewerten. Dies gilt insbesondere, wenn (a) die zu vergessenden und zu behaltenden Datensätze semantisch ähnliche Inhalte aufweisen, (b) das erneute Trainieren des Modells von Grund auf mit dem zu behaltenden Datensatz unpraktikabel ist und/oder (c) der Modellbetreiber die Verlernmetrik verbessern kann, ohne direkt ein Verlernen im LLM durchzuführen. In diesem Artikel stellen wir die erste datenzentrierte Verlernmetrik für LLMs namens WaterDrum vor, die robuste Textwasserzeichen nutzt, um diese Einschränkungen zu überwinden. Wir führen außerdem neue Benchmark-Datensätze für das Verlernen von LLMs ein, die unterschiedliche Grade ähnlicher Datenpunkte enthalten und zur rigorosen Bewertung von Verlernalgorithmen mit WaterDrum verwendet werden können. Unser Code ist verfügbar unter https://github.com/lululu008/WaterDrum und unsere neuen Benchmark-Datensätze sind veröffentlicht unter https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.

Summary

AI-Generated Summary

PDF51May 9, 2025