ChatPaper.aiChatPaper

UPCORE: Selección de Coresets que Preservan la Utilidad para el Desaprendizaje Equilibrado

UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning

February 20, 2025
Autores: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Resumen

Las especificaciones del usuario o los marcos legales a menudo requieren que se elimine información de los modelos preentrenados, incluidos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Esto implica borrar u "olvidar" un conjunto de puntos de datos de un modelo ya entrenado, lo que generalmente degrada su rendimiento en otros puntos de datos. Por lo tanto, es necesario encontrar un equilibrio entre eliminar la información y mantener intactas las demás capacidades del modelo, ya que un desequilibrio en esta compensación puede resultar en una eliminación deficiente o en un modelo inutilizable. Con este fin, proponemos UPCORE (Selección de Conjunto de Datos Centrales que Preserva la Utilidad), un marco de selección de datos independiente del método para mitigar el daño colateral durante el proceso de "olvido". Al observar que el daño al modelo está correlacionado con la varianza de las representaciones del modelo en el conjunto de datos a olvidar, podamos selectivamente eliminar los valores atípicos del conjunto, minimizando así la degradación del modelo después del olvido. Evaluamos UPCORE en tres métodos estándar de olvido, logrando consistentemente un equilibrio superior entre los objetivos contrapuestos de eficacia en la eliminación y preservación del modelo. Para evaluar mejor esta compensación, introducimos una nueva métrica que mide el área bajo la curva (AUC) en métricas estándar. Encontramos que UPCORE mejora tanto las métricas estándar como el AUC, beneficiándose de la transferencia positiva entre el conjunto de datos centrales y los puntos podados, mientras reduce la transferencia negativa del conjunto de datos a olvidar hacia puntos fuera de él.
English
User specifications or legal frameworks often require information to be removed from pretrained models, including large language models (LLMs). This requires deleting or "forgetting" a set of data points from an already-trained model, which typically degrades its performance on other data points. Thus, a balance must be struck between removing information and keeping the model's other abilities intact, with a failure to balance this trade-off leading to poor deletion or an unusable model. To this end, we propose UPCORE (Utility-Preserving Coreset Selection), a method-agnostic data selection framework for mitigating collateral damage during unlearning. Finding that the model damage is correlated with the variance of the model's representations on the forget set, we selectively prune the forget set to remove outliers, thereby minimizing model degradation after unlearning. We evaluate UPCORE across three standard unlearning methods consistently achieving a superior balance between the competing objectives of deletion efficacy and model preservation. To better evaluate this trade-off, we introduce a new metric, measuring the area-under-the-curve (AUC) across standard metrics. We find that UPCORE improves both standard metrics and AUC, benefitting from positive transfer between the coreset and pruned points while reducing negative transfer from the forget set to points outside of it.

Summary

AI-Generated Summary

PDF12February 24, 2025