UPCORE: Seleção de Coreset Preservadora de Utilidade para Esquecimento Equilibrado
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning
February 20, 2025
Autores: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumo
Especificações do usuário ou frameworks legais frequentemente exigem que informações sejam removidas de modelos pré-treinados, incluindo grandes modelos de linguagem (LLMs). Isso requer a exclusão ou "esquecimento" de um conjunto de pontos de dados de um modelo já treinado, o que tipicamente degrada seu desempenho em outros pontos de dados. Assim, é necessário encontrar um equilíbrio entre a remoção de informações e a manutenção das outras habilidades do modelo, com a falha em equilibrar essa troca resultando em uma exclusão inadequada ou em um modelo inutilizável. Para esse fim, propomos o UPCORE (Utility-Preserving Coreset Selection), um framework de seleção de dados agnóstico a métodos para mitigar danos colaterais durante o processo de esquecimento. Ao descobrir que o dano ao modelo está correlacionado com a variância das representações do modelo no conjunto de esquecimento, podamos seletivamente o conjunto de esquecimento para remover outliers, minimizando assim a degradação do modelo após o esquecimento. Avaliamos o UPCORE em três métodos padrão de esquecimento, consistentemente alcançando um equilíbrio superior entre os objetivos concorrentes de eficácia de exclusão e preservação do modelo. Para melhor avaliar essa troca, introduzimos uma nova métrica, medindo a área sob a curva (AUC) em métricas padrão. Descobrimos que o UPCORE melhora tanto as métricas padrão quanto a AUC, beneficiando-se da transferência positiva entre o coreset e os pontos podados, enquanto reduz a transferência negativa do conjunto de esquecimento para pontos fora dele.
English
User specifications or legal frameworks often require information to be
removed from pretrained models, including large language models (LLMs). This
requires deleting or "forgetting" a set of data points from an already-trained
model, which typically degrades its performance on other data points. Thus, a
balance must be struck between removing information and keeping the model's
other abilities intact, with a failure to balance this trade-off leading to
poor deletion or an unusable model. To this end, we propose UPCORE
(Utility-Preserving Coreset Selection), a method-agnostic data selection
framework for mitigating collateral damage during unlearning. Finding that the
model damage is correlated with the variance of the model's representations on
the forget set, we selectively prune the forget set to remove outliers, thereby
minimizing model degradation after unlearning. We evaluate UPCORE across three
standard unlearning methods consistently achieving a superior balance between
the competing objectives of deletion efficacy and model preservation. To better
evaluate this trade-off, we introduce a new metric, measuring the
area-under-the-curve (AUC) across standard metrics. We find that UPCORE
improves both standard metrics and AUC, benefitting from positive transfer
between the coreset and pruned points while reducing negative transfer from the
forget set to points outside of it.Summary
AI-Generated Summary