Unilogit: Eliminación Robusta de Aprendizaje en Máquinas para LLMs mediante Autodistribución con Objetivo Uniforme
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
May 9, 2025
Autores: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI
Resumen
Este artículo presenta Unilogit, un novedoso método de auto-distilación para el desaprendizaje en modelos de lenguaje de gran escala. Unilogit aborda el desafío de olvidar selectivamente información específica mientras se mantiene la utilidad general del modelo, una tarea crítica para cumplir con regulaciones de privacidad de datos como el GDPR. A diferencia de métodos previos que dependen de hiperparámetros estáticos o salidas iniciales del modelo, Unilogit ajusta dinámicamente los logits objetivo para alcanzar una probabilidad uniforme del token objetivo, aprovechando las salidas actuales del modelo para obtener objetivos de auto-distilación más precisos. Este enfoque no solo elimina la necesidad de hiperparámetros adicionales, sino que también mejora la capacidad del modelo para aproximarse a los objetivos ideales. Experimentos exhaustivos en benchmarks públicos y un conjunto de datos interno de comercio electrónico demuestran el rendimiento superior de Unilogit al equilibrar los objetivos de olvidar y retener, superando a métodos de vanguardia como NPO y UnDIAL. Nuestro análisis revela además la robustez de Unilogit en diversos escenarios, destacando su aplicabilidad práctica y efectividad para lograr un desaprendizaje eficaz en máquinas.
English
This paper introduces Unilogit, a novel self-distillation method for machine
unlearning in Large Language Models. Unilogit addresses the challenge of
selectively forgetting specific information while maintaining overall model
utility, a critical task in compliance with data privacy regulations like GDPR.
Unlike prior methods that rely on static hyperparameters or starting model
outputs, Unilogit dynamically adjusts target logits to achieve a uniform
probability for the target token, leveraging the current model's outputs for
more accurate self-distillation targets. This approach not only eliminates the
need for additional hyperparameters but also enhances the model's ability to
approximate the golden targets. Extensive experiments on public benchmarks and
an in-house e-commerce dataset demonstrate Unilogit's superior performance in
balancing forget and retain objectives, outperforming state-of-the-art methods
such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness
across various scenarios, highlighting its practical applicability and
effectiveness in achieving efficacious machine unlearning.Summary
AI-Generated Summary