ChatPaper.aiChatPaper

Unilogit : Désapprentissage robuste pour les modèles de langage à grande échelle via l'autodistillation à cible uniforme

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

May 9, 2025
Auteurs: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI

Résumé

Cet article présente Unilogit, une nouvelle méthode d'auto-distillation pour le désapprentissage automatique dans les grands modèles de langage. Unilogit relève le défi d'oublier sélectivement des informations spécifiques tout en préservant l'utilité globale du modèle, une tâche cruciale pour se conformer aux réglementations sur la protection des données comme le RGPD. Contrairement aux méthodes antérieures qui reposent sur des hyperparamètres statiques ou sur les sorties initiales du modèle, Unilogit ajuste dynamiquement les logits cibles pour atteindre une probabilité uniforme pour le token cible, en exploitant les sorties actuelles du modèle pour des cibles d'auto-distillation plus précises. Cette approche élimine non seulement le besoin d'hyperparamètres supplémentaires, mais améliore également la capacité du modèle à approcher les cibles idéales. Des expériences approfondies sur des benchmarks publics et un jeu de données interne dans le domaine du commerce électronique démontrent la performance supérieure d'Unilogit dans l'équilibrage des objectifs d'oubli et de rétention, surpassant les méthodes de pointe telles que NPO et UnDIAL. Notre analyse révèle en outre la robustesse d'Unilogit dans divers scénarios, mettant en évidence son applicabilité pratique et son efficacité pour réaliser un désapprentissage automatique efficace.
English
This paper introduces Unilogit, a novel self-distillation method for machine unlearning in Large Language Models. Unilogit addresses the challenge of selectively forgetting specific information while maintaining overall model utility, a critical task in compliance with data privacy regulations like GDPR. Unlike prior methods that rely on static hyperparameters or starting model outputs, Unilogit dynamically adjusts target logits to achieve a uniform probability for the target token, leveraging the current model's outputs for more accurate self-distillation targets. This approach not only eliminates the need for additional hyperparameters but also enhances the model's ability to approximate the golden targets. Extensive experiments on public benchmarks and an in-house e-commerce dataset demonstrate Unilogit's superior performance in balancing forget and retain objectives, outperforming state-of-the-art methods such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness across various scenarios, highlighting its practical applicability and effectiveness in achieving efficacious machine unlearning.

Summary

AI-Generated Summary

PDF142May 16, 2025