ChatPaper.aiChatPaper

WaterDrum : Marquage numérique pour une métrique centrée sur les données de désapprentissage

WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8, 2025
Auteurs: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI

Résumé

Le désapprentissage des grands modèles de langage (LLM) est crucial dans les applications réelles où il est nécessaire de supprimer efficacement l'influence de données privées, protégées par le droit d'auteur ou nuisibles provenant de certains utilisateurs. Cependant, les métriques de désapprentissage existantes axées sur l'utilité (basées sur l'utilité du modèle) peuvent échouer à évaluer avec précision l'étendue du désapprentissage dans des scénarios réalistes, tels que lorsque (a) les ensembles de données à oublier et à conserver ont un contenu sémantiquement similaire, (b) le réentraînement du modèle à partir de zéro sur l'ensemble à conserver est impraticable, et/ou (c) le propriétaire du modèle peut améliorer la métrique de désapprentissage sans effectuer directement le désapprentissage sur le LLM. Cet article présente la première métrique de désapprentissage centrée sur les données pour les LLM, appelée WaterDrum, qui exploite le tatouage robuste de texte pour surmonter ces limitations. Nous introduisons également de nouveaux ensembles de données de référence pour le désapprentissage des LLM, contenant différents niveaux de points de données similaires, et pouvant être utilisés pour évaluer rigoureusement les algorithmes de désapprentissage avec WaterDrum. Notre code est disponible à l'adresse https://github.com/lululu008/WaterDrum et nos nouveaux ensembles de données de référence sont publiés à l'adresse https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.

Summary

AI-Generated Summary

PDF51May 9, 2025