ChatPaper.aiChatPaper

UPCORE : Sélection de Coreset Préservant l'Utilité pour un Désapprentissage Équilibré

UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning

February 20, 2025
Auteurs: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Résumé

Les spécifications utilisateur ou les cadres juridiques exigent souvent que des informations soient supprimées des modèles préentraînés, y compris les grands modèles de langage (LLM). Cela nécessite de supprimer ou d'"oublier" un ensemble de points de données d'un modèle déjà entraîné, ce qui dégrade généralement ses performances sur les autres points de données. Ainsi, un équilibre doit être trouvé entre la suppression d'informations et le maintien des autres capacités du modèle, un déséquilibre dans ce compromis conduisant à une suppression inefficace ou à un modèle inutilisable. À cette fin, nous proposons UPCORE (Utility-Preserving Coreset Selection), un cadre de sélection de données indépendant de la méthode pour atténuer les dommages collatéraux lors du désapprentissage. Constatant que les dommages au modèle sont corrélés à la variance des représentations du modèle sur l'ensemble à oublier, nous élaguons sélectivement cet ensemble pour supprimer les valeurs aberrantes, minimisant ainsi la dégradation du modèle après le désapprentissage. Nous évaluons UPCORE sur trois méthodes standard de désapprentissage, obtenant systématiquement un équilibre supérieur entre les objectifs concurrents d'efficacité de suppression et de préservation du modèle. Pour mieux évaluer ce compromis, nous introduisons une nouvelle métrique, mesurant l'aire sous la courbe (AUC) sur des métriques standard. Nous constatons qu'UPCORE améliore à la fois les métriques standard et l'AUC, bénéficiant d'un transfert positif entre le coreset et les points élagués tout en réduisant le transfert négatif de l'ensemble à oublier vers les points extérieurs.
English
User specifications or legal frameworks often require information to be removed from pretrained models, including large language models (LLMs). This requires deleting or "forgetting" a set of data points from an already-trained model, which typically degrades its performance on other data points. Thus, a balance must be struck between removing information and keeping the model's other abilities intact, with a failure to balance this trade-off leading to poor deletion or an unusable model. To this end, we propose UPCORE (Utility-Preserving Coreset Selection), a method-agnostic data selection framework for mitigating collateral damage during unlearning. Finding that the model damage is correlated with the variance of the model's representations on the forget set, we selectively prune the forget set to remove outliers, thereby minimizing model degradation after unlearning. We evaluate UPCORE across three standard unlearning methods consistently achieving a superior balance between the competing objectives of deletion efficacy and model preservation. To better evaluate this trade-off, we introduce a new metric, measuring the area-under-the-curve (AUC) across standard metrics. We find that UPCORE improves both standard metrics and AUC, benefitting from positive transfer between the coreset and pruned points while reducing negative transfer from the forget set to points outside of it.

Summary

AI-Generated Summary

PDF12February 24, 2025