ZeroUnlearn: Desaprendizagem de Conhecimento com Poucos Exemplos em Grandes Modelos de Linguagem

Resumo

Grandes modelos de linguagem inevitavelmente retêm informações sensíveis, definidas como entradas que podem induzir gerações prejudiciais, devido ao treinamento em vastos corpora da web, gerando preocupações quanto à privacidade e segurança. Métodos existentes de desaprendizado de máquina dependem principalmente de retreinamento ou ajuste fino agressivo, que são computacionalmente caros ou propensos a degradar o conhecimento relacionado e a utilidade geral do modelo. Neste trabalho, reformulamos o desaprendizado de máquina como um problema preciso de re-mapeamento de conhecimento por meio da edição de modelos. Propomos o ZeroUnlearn, uma estrutura de desaprendizado com poucos exemplos. Ele sobrescreve entradas sensíveis mapeando-as para um estado alvo neutro e removendo suas representações originais. O ZeroUnlearn impõe ortogonalidade representacional por meio de uma atualização multiplicativa de parâmetros com solução de forma fechada, permitindo um desaprendizado eficiente e direcionado. Estendemos ainda o ZeroUnlearn para uma variante baseada em gradiente para desaprendizado multi-amostra. Experimentos demonstram que nossa abordagem supera as linhas de base existentes, preservando a utilidade geral do modelo. Nosso código está disponível no github: https://github.com/XMUDeepLIT/ZeroUnlearn.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.