WaterDrum: Marca d'água para métrica de esquecimento centrado em dados
WaterDrum: Watermarking for Data-centric Unlearning Metric
May 8, 2025
Autores: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI
Resumo
O esquecimento em modelos de linguagem de grande escala (LLMs) é crucial em aplicações do mundo real, onde é necessário remover eficientemente a influência de dados privados, protegidos por direitos autorais ou prejudiciais de alguns usuários. No entanto, as métricas de esquecimento existentes, centradas na utilidade do modelo, podem falhar em avaliar com precisão a extensão do esquecimento em cenários realistas, como quando (a) os conjuntos de esquecimento e retenção têm conteúdo semanticamente semelhante, (b) o retreinamento do modelo do zero com o conjunto de retenção é impraticável e/ou (c) o proprietário do modelo pode melhorar a métrica de esquecimento sem realizar diretamente o esquecimento no LLM. Este artigo apresenta a primeira métrica de esquecimento centrada em dados para LLMs, chamada WaterDrum, que explora a marca d'água robusta de texto para superar essas limitações. Também introduzimos novos conjuntos de dados de referência para esquecimento em LLMs que contêm níveis variados de pontos de dados semelhantes e podem ser usados para avaliar rigorosamente algoritmos de esquecimento usando WaterDrum. Nosso código está disponível em https://github.com/lululu008/WaterDrum e nossos novos conjuntos de dados de referência são liberados em https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications
where it is necessary to efficiently remove the influence of private,
copyrighted, or harmful data from some users. However, existing utility-centric
unlearning metrics (based on model utility) may fail to accurately evaluate the
extent of unlearning in realistic settings such as when (a) the forget and
retain set have semantically similar content, (b) retraining the model from
scratch on the retain set is impractical, and/or (c) the model owner can
improve the unlearning metric without directly performing unlearning on the
LLM. This paper presents the first data-centric unlearning metric for LLMs
called WaterDrum that exploits robust text watermarking for overcoming these
limitations. We also introduce new benchmark datasets for LLM unlearning that
contain varying levels of similar data points and can be used to rigorously
evaluate unlearning algorithms using WaterDrum. Our code is available at
https://github.com/lululu008/WaterDrum and our new benchmark datasets are
released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.