UPCORE: Utility-Behoudende Coreset Selectie voor Gebalanceerd Verwijderen
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning
February 20, 2025
Auteurs: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Samenvatting
Gebruikersspecificaties of juridische kaders vereisen vaak dat informatie wordt verwijderd uit vooraf getrainde modellen, waaronder grote taalmodellen (LLM's). Dit vereist het verwijderen of "vergeten" van een reeks datapunten uit een reeds getraind model, wat doorgaans de prestaties op andere datapunten vermindert. Er moet dus een balans worden gevonden tussen het verwijderen van informatie en het intact houden van de andere capaciteiten van het model, waarbij een mislukking in het balanceren van deze afweging leidt tot slechte verwijdering of een onbruikbaar model. Hiertoe stellen we UPCORE (Utility-Preserving Coreset Selection) voor, een methode-onafhankelijk dataselectiekader om bijkomende schade tijdens het afleren te beperken. We ontdekken dat de modelschade gecorreleerd is met de variantie van de modelrepresentaties op de vergeetverzameling, en selectief snoeien we de vergeetverzameling om uitbijters te verwijderen, waardoor modeldegradatie na afleren wordt geminimaliseerd. We evalueren UPCORE over drie standaard aflermethoden en behalen consequent een superieure balans tussen de concurrerende doelstellingen van verwijderingsefficiëntie en modelbehoud. Om deze afweging beter te evalueren, introduceren we een nieuwe metriek, waarbij het gebied-onder-de-curve (AUC) over standaard metrieken wordt gemeten. We constateren dat UPCORE zowel standaard metrieken als AUC verbetert, profiterend van positieve overdracht tussen de coreset en gesnoeide punten, terwijl negatieve overdracht van de vergeetverzameling naar punten buiten deze verzameling wordt verminderd.
English
User specifications or legal frameworks often require information to be
removed from pretrained models, including large language models (LLMs). This
requires deleting or "forgetting" a set of data points from an already-trained
model, which typically degrades its performance on other data points. Thus, a
balance must be struck between removing information and keeping the model's
other abilities intact, with a failure to balance this trade-off leading to
poor deletion or an unusable model. To this end, we propose UPCORE
(Utility-Preserving Coreset Selection), a method-agnostic data selection
framework for mitigating collateral damage during unlearning. Finding that the
model damage is correlated with the variance of the model's representations on
the forget set, we selectively prune the forget set to remove outliers, thereby
minimizing model degradation after unlearning. We evaluate UPCORE across three
standard unlearning methods consistently achieving a superior balance between
the competing objectives of deletion efficacy and model preservation. To better
evaluate this trade-off, we introduce a new metric, measuring the
area-under-the-curve (AUC) across standard metrics. We find that UPCORE
improves both standard metrics and AUC, benefitting from positive transfer
between the coreset and pruned points while reducing negative transfer from the
forget set to points outside of it.Summary
AI-Generated Summary