Desaprendizado Eficiente de Máquina via Aproximação de Influência

Resumo

Devido às crescentes preocupações com privacidade, o "machine unlearning", que visa permitir que modelos de aprendizado de máquina "esqueçam" dados específicos de treinamento, tem recebido atenção cada vez maior. Entre os métodos existentes, o "unlearning" baseado em influência emergiu como uma abordagem proeminente devido à sua capacidade de estimar o impacto de amostras individuais de treinamento nos parâmetros do modelo sem a necessidade de retreinamento. No entanto, essa abordagem sofre com uma sobrecarga computacional proibitiva, decorrente da necessidade de calcular a matriz Hessiana e sua inversa para todas as amostras de treinamento e parâmetros, tornando-a impraticável para modelos em larga escala e cenários que envolvem solicitações frequentes de exclusão de dados. Isso destaca a dificuldade de esquecer. Inspirados pela ciência cognitiva, que sugere que memorizar é mais fácil do que esquecer, este artigo estabelece uma ligação teórica entre memorizar (aprendizado incremental) e esquecer ("unlearning"). Essa conexão permite que o "machine unlearning" seja abordado a partir da perspectiva do aprendizado incremental. Diferente dos cálculos demorados da Hessiana no "unlearning" (esquecer), o aprendizado incremental (memorizar) geralmente depende de uma otimização de gradiente mais eficiente, o que apoia a teoria cognitiva mencionada. Com base nessa conexão, introduzimos o algoritmo Influence Approximation Unlearning (IAU) para um "machine unlearning" eficiente a partir da perspectiva incremental. Avaliações empíricas extensas demonstram que o IAU alcança um equilíbrio superior entre garantia de remoção, eficiência de "unlearning" e utilidade comparável do modelo, superando métodos state-of-the-art em diversos conjuntos de dados e arquiteturas de modelos. Nosso código está disponível em https://github.com/Lolo1222/IAU.

English

Due to growing privacy concerns, machine unlearning, which aims at enabling machine learning models to ``forget" specific training data, has received increasing attention. Among existing methods, influence-based unlearning has emerged as a prominent approach due to its ability to estimate the impact of individual training samples on model parameters without retraining. However, this approach suffers from prohibitive computational overhead arising from the necessity to compute the Hessian matrix and its inverse across all training samples and parameters, rendering it impractical for large-scale models and scenarios involving frequent data deletion requests. This highlights the difficulty of forgetting. Inspired by cognitive science, which suggests that memorizing is easier than forgetting, this paper establishes a theoretical link between memorizing (incremental learning) and forgetting (unlearning). This connection allows machine unlearning to be addressed from the perspective of incremental learning. Unlike the time-consuming Hessian computations in unlearning (forgetting), incremental learning (memorizing) typically relies on more efficient gradient optimization, which supports the aforementioned cognitive theory. Based on this connection, we introduce the Influence Approximation Unlearning (IAU) algorithm for efficient machine unlearning from the incremental perspective. Extensive empirical evaluations demonstrate that IAU achieves a superior balance among removal guarantee, unlearning efficiency, and comparable model utility, while outperforming state-of-the-art methods across diverse datasets and model architectures. Our code is available at https://github.com/Lolo1222/IAU.

Desaprendizado Eficiente de Máquina via Aproximação de Influência

Efficient Machine Unlearning via Influence Approximation

Resumo

Support