ChatPaper.aiChatPaper

Unilogit: Robuust Machine Unleren voor LLM's met Uniform-Target Zelfdistillatie

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

May 9, 2025
Auteurs: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI

Samenvatting

Dit artikel introduceert Unilogit, een nieuwe zelfdistillatiemethode voor machine-unlearning in grote taalmmodellen. Unilogit richt zich op de uitdaging om specifieke informatie selectief te vergeten terwijl de algehele nuttigheid van het model behouden blijft, een cruciale taak in het kader van naleving van gegevensprivacyregels zoals de AVG. In tegenstelling tot eerdere methoden die vertrouwen op statische hyperparameters of uitgangsoutputs van het model, past Unilogit dynamisch de doel-logits aan om een uniforme waarschijnlijkheid voor het doel-token te bereiken, waarbij het de huidige outputs van het model benut voor nauwkeurigere zelfdistillatiedoelen. Deze aanpak elimineert niet alleen de behoefte aan extra hyperparameters, maar verbetert ook het vermogen van het model om de gouden doelen te benaderen. Uitgebreide experimenten op openbare benchmarks en een interne e-commercedataset tonen de superieure prestaties van Unilogit in het balanceren van vergeten en behouden doelen, waarbij het state-of-the-art methoden zoals NPO en UnDIAL overtreft. Onze analyse onthult verder de robuustheid van Unilogit in diverse scenario's, wat de praktische toepasbaarheid en effectiviteit ervan benadrukt bij het bereiken van efficiënt machine-unlearning.
English
This paper introduces Unilogit, a novel self-distillation method for machine unlearning in Large Language Models. Unilogit addresses the challenge of selectively forgetting specific information while maintaining overall model utility, a critical task in compliance with data privacy regulations like GDPR. Unlike prior methods that rely on static hyperparameters or starting model outputs, Unilogit dynamically adjusts target logits to achieve a uniform probability for the target token, leveraging the current model's outputs for more accurate self-distillation targets. This approach not only eliminates the need for additional hyperparameters but also enhances the model's ability to approximate the golden targets. Extensive experiments on public benchmarks and an in-house e-commerce dataset demonstrate Unilogit's superior performance in balancing forget and retain objectives, outperforming state-of-the-art methods such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness across various scenarios, highlighting its practical applicability and effectiveness in achieving efficacious machine unlearning.
PDF182May 16, 2025