ChatPaper.aiChatPaper

WaterDrum: Filigrana per la Metrica di Disapprendimento Centrata sui Dati

WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8, 2025
Autori: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI

Abstract

La rimozione di informazioni (unlearning) nei grandi modelli linguistici (LLM) è cruciale nelle applicazioni reali, dove è necessario rimuovere in modo efficiente l'influenza di dati privati, protetti da copyright o dannosi per alcuni utenti. Tuttavia, le metriche esistenti focalizzate sull'utilità del modello (basate sull'utilità del modello) potrebbero non valutare accuratamente l'entità della rimozione in contesti realistici, come quando (a) l'insieme di dati da dimenticare e quello da conservare hanno contenuti semanticamente simili, (b) riaddestrare il modello da zero sull'insieme da conservare è impraticabile, e/o (c) il proprietario del modello può migliorare la metrica di rimozione senza eseguire direttamente la rimozione sul LLM. Questo articolo presenta la prima metrica di rimozione centrata sui dati per i LLM, chiamata WaterDrum, che sfrutta il watermarking robusto del testo per superare queste limitazioni. Introduciamo anche nuovi dataset di benchmark per la rimozione nei LLM che contengono diversi livelli di punti dati simili e possono essere utilizzati per valutare rigorosamente gli algoritmi di rimozione utilizzando WaterDrum. Il nostro codice è disponibile all'indirizzo https://github.com/lululu008/WaterDrum e i nostri nuovi dataset di benchmark sono rilasciati all'indirizzo https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
PDF82May 9, 2025