WaterDrum: Marcado de agua para la métrica de desaprendizaje centrado en datos
WaterDrum: Watermarking for Data-centric Unlearning Metric
May 8, 2025
Autores: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
cs.AI
Resumen
El desaprendizaje en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) es crucial en aplicaciones del mundo real donde es necesario eliminar de manera eficiente la influencia de datos privados, protegidos por derechos de autor o dañinos de algunos usuarios. Sin embargo, las métricas existentes centradas en la utilidad (basadas en la utilidad del modelo) pueden fallar al evaluar con precisión el alcance del desaprendizaje en escenarios realistas, como cuando (a) los conjuntos de datos a olvidar y retener tienen contenido semánticamente similar, (b) reentrenar el modelo desde cero con el conjunto de retención es poco práctico, y/o (c) el propietario del modelo puede mejorar la métrica de desaprendizaje sin realizar directamente el desaprendizaje en el LLM. Este artículo presenta la primera métrica de desaprendizaje centrada en datos para LLMs, llamada WaterDrum, que aprovecha la marca de agua de texto robusta para superar estas limitaciones. También introducimos nuevos conjuntos de datos de referencia para el desaprendizaje en LLMs que contienen distintos niveles de puntos de datos similares y pueden usarse para evaluar rigurosamente algoritmos de desaprendizaje utilizando WaterDrum. Nuestro código está disponible en https://github.com/lululu008/WaterDrum y nuestros nuevos conjuntos de datos de referencia se publican en https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
English
Large language model (LLM) unlearning is critical in real-world applications
where it is necessary to efficiently remove the influence of private,
copyrighted, or harmful data from some users. However, existing utility-centric
unlearning metrics (based on model utility) may fail to accurately evaluate the
extent of unlearning in realistic settings such as when (a) the forget and
retain set have semantically similar content, (b) retraining the model from
scratch on the retain set is impractical, and/or (c) the model owner can
improve the unlearning metric without directly performing unlearning on the
LLM. This paper presents the first data-centric unlearning metric for LLMs
called WaterDrum that exploits robust text watermarking for overcoming these
limitations. We also introduce new benchmark datasets for LLM unlearning that
contain varying levels of similar data points and can be used to rigorously
evaluate unlearning algorithms using WaterDrum. Our code is available at
https://github.com/lululu008/WaterDrum and our new benchmark datasets are
released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.Summary
AI-Generated Summary