Unilogit: Desaprendizado Robusto em Máquinas para LLMs Utilizando Auto-Distilação com Alvo Uniforme
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
May 9, 2025
Autores: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI
Resumo
Este artigo apresenta o Unilogit, um novo método de auto-distilação para o esquecimento de máquina em Modelos de Linguagem de Grande Escala. O Unilogit aborda o desafio de esquecer seletivamente informações específicas enquanto mantém a utilidade geral do modelo, uma tarefa crítica para a conformidade com regulamentos de privacidade de dados, como o GDPR. Diferente de métodos anteriores que dependem de hiperparâmetros estáticos ou saídas iniciais do modelo, o Unilogit ajusta dinamicamente os logits alvo para alcançar uma probabilidade uniforme para o token alvo, aproveitando as saídas atuais do modelo para obter alvos de auto-distilação mais precisos. Essa abordagem não apenas elimina a necessidade de hiperparâmetros adicionais, mas também aprimora a capacidade do modelo de aproximar os alvos ideais. Experimentos extensivos em benchmarks públicos e em um conjunto de dados interno de e-commerce demonstram o desempenho superior do Unilogit no equilíbrio entre os objetivos de esquecimento e retenção, superando métodos state-of-the-art como NPO e UnDIAL. Nossa análise ainda revela a robustez do Unilogit em diversos cenários, destacando sua aplicabilidade prática e eficácia na realização de esquecimento de máquina eficaz.
English
This paper introduces Unilogit, a novel self-distillation method for machine
unlearning in Large Language Models. Unilogit addresses the challenge of
selectively forgetting specific information while maintaining overall model
utility, a critical task in compliance with data privacy regulations like GDPR.
Unlike prior methods that rely on static hyperparameters or starting model
outputs, Unilogit dynamically adjusts target logits to achieve a uniform
probability for the target token, leveraging the current model's outputs for
more accurate self-distillation targets. This approach not only eliminates the
need for additional hyperparameters but also enhances the model's ability to
approximate the golden targets. Extensive experiments on public benchmarks and
an in-house e-commerce dataset demonstrate Unilogit's superior performance in
balancing forget and retain objectives, outperforming state-of-the-art methods
such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness
across various scenarios, highlighting its practical applicability and
effectiveness in achieving efficacious machine unlearning.