Unilogit: Eliminación Robusta de Aprendizaje en Máquinas para LLMs mediante Autodistribución con Objetivo Uniforme

Resumen

Este artículo presenta Unilogit, un novedoso método de auto-distilación para el desaprendizaje en modelos de lenguaje de gran escala. Unilogit aborda el desafío de olvidar selectivamente información específica mientras se mantiene la utilidad general del modelo, una tarea crítica para cumplir con regulaciones de privacidad de datos como el GDPR. A diferencia de métodos previos que dependen de hiperparámetros estáticos o salidas iniciales del modelo, Unilogit ajusta dinámicamente los logits objetivo para alcanzar una probabilidad uniforme del token objetivo, aprovechando las salidas actuales del modelo para obtener objetivos de auto-distilación más precisos. Este enfoque no solo elimina la necesidad de hiperparámetros adicionales, sino que también mejora la capacidad del modelo para aproximarse a los objetivos ideales. Experimentos exhaustivos en benchmarks públicos y un conjunto de datos interno de comercio electrónico demuestran el rendimiento superior de Unilogit al equilibrar los objetivos de olvidar y retener, superando a métodos de vanguardia como NPO y UnDIAL. Nuestro análisis revela además la robustez de Unilogit en diversos escenarios, destacando su aplicabilidad práctica y efectividad para lograr un desaprendizaje eficaz en máquinas.

English

This paper introduces Unilogit, a novel self-distillation method for machine unlearning in Large Language Models. Unilogit addresses the challenge of selectively forgetting specific information while maintaining overall model utility, a critical task in compliance with data privacy regulations like GDPR. Unlike prior methods that rely on static hyperparameters or starting model outputs, Unilogit dynamically adjusts target logits to achieve a uniform probability for the target token, leveraging the current model's outputs for more accurate self-distillation targets. This approach not only eliminates the need for additional hyperparameters but also enhances the model's ability to approximate the golden targets. Extensive experiments on public benchmarks and an in-house e-commerce dataset demonstrate Unilogit's superior performance in balancing forget and retain objectives, outperforming state-of-the-art methods such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness across various scenarios, highlighting its practical applicability and effectiveness in achieving efficacious machine unlearning.

Unilogit: Eliminación Robusta de Aprendizaje en Máquinas para LLMs mediante Autodistribución con Objetivo Uniforme

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

Resumen

Support