ChatPaper.aiChatPaper

UPCORE: Nutzungserhaltende Coreset-Auswahl für ausgewogenes Unlearning

UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning

February 20, 2025
Autoren: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Zusammenfassung

Benutzerspezifikationen oder rechtliche Rahmenbedingungen erfordern oft, dass Informationen aus vortrainierten Modellen, einschließlich großer Sprachmodelle (LLMs), entfernt werden. Dies erfordert das Löschen oder „Vergessen“ einer Reihe von Datenpunkten aus einem bereits trainierten Modell, was typischerweise dessen Leistung bei anderen Datenpunkten beeinträchtigt. Daher muss ein Gleichgewicht zwischen dem Entfernen von Informationen und dem Erhalt der anderen Fähigkeiten des Modells gefunden werden, wobei ein Misslingen dieses Abwägens zu einer unzureichenden Löschung oder einem unbrauchbaren Modell führt. Zu diesem Zweck schlagen wir UPCORE (Utility-Preserving Coreset Selection) vor, ein methodenunabhängiges Datenauswahl-Framework, um Kollateralschäden während des „Unlearnings“ zu minimieren. Da wir feststellen, dass der Modellschaden mit der Varianz der Modellrepräsentationen auf der „Forget“-Menge korreliert, beschneiden wir die „Forget“-Menge selektiv, um Ausreißer zu entfernen und so die Modellverschlechterung nach dem „Unlearning“ zu minimieren. Wir evaluieren UPCORE über drei standardmäßige „Unlearning“-Methoden hinweg und erreichen dabei konsequent ein überlegenes Gleichgewicht zwischen den konkurrierenden Zielen der Löschwirksamkeit und der Modellerhaltung. Um diesen Kompromiss besser zu bewerten, führen wir eine neue Metrik ein, die die Fläche unter der Kurve (AUC) über Standardmetriken hinweg misst. Wir stellen fest, dass UPCORE sowohl die Standardmetriken als auch die AUC verbessert, wobei es von einem positiven Transfer zwischen dem Coreset und den beschnittenen Punkten profitiert, während der negative Transfer von der „Forget“-Menge zu Punkten außerhalb davon reduziert wird.
English
User specifications or legal frameworks often require information to be removed from pretrained models, including large language models (LLMs). This requires deleting or "forgetting" a set of data points from an already-trained model, which typically degrades its performance on other data points. Thus, a balance must be struck between removing information and keeping the model's other abilities intact, with a failure to balance this trade-off leading to poor deletion or an unusable model. To this end, we propose UPCORE (Utility-Preserving Coreset Selection), a method-agnostic data selection framework for mitigating collateral damage during unlearning. Finding that the model damage is correlated with the variance of the model's representations on the forget set, we selectively prune the forget set to remove outliers, thereby minimizing model degradation after unlearning. We evaluate UPCORE across three standard unlearning methods consistently achieving a superior balance between the competing objectives of deletion efficacy and model preservation. To better evaluate this trade-off, we introduce a new metric, measuring the area-under-the-curve (AUC) across standard metrics. We find that UPCORE improves both standard metrics and AUC, benefitting from positive transfer between the coreset and pruned points while reducing negative transfer from the forget set to points outside of it.

Summary

AI-Generated Summary

PDF12February 24, 2025