Unilogit: Robustes Maschinelles Verlernen für LLMs durch Uniform-Target-Selbstdistillation
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
May 9, 2025
Autoren: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI
Zusammenfassung
Dieses Papier stellt Unilogit vor, eine neuartige Selbst-Distillationsmethode für das maschinelle Verlernen in großen Sprachmodellen. Unilogit adressiert die Herausforderung, spezifische Informationen selektiv zu vergessen, während die Gesamtnützlichkeit des Modells erhalten bleibt – eine entscheidende Aufgabe zur Einhaltung von Datenschutzbestimmungen wie der DSGVO. Im Gegensatz zu früheren Methoden, die sich auf statische Hyperparameter oder Ausgangsmodellausgaben stützen, passt Unilogit die Ziel-Logits dynamisch an, um eine gleichmäßige Wahrscheinlichkeit für das Ziel-Token zu erreichen, und nutzt dabei die aktuellen Modellausgaben für präzisere Selbst-Distillationsziele. Dieser Ansatz eliminiert nicht nur den Bedarf an zusätzlichen Hyperparametern, sondern verbessert auch die Fähigkeit des Modells, die optimalen Ziele anzunähern. Umfangreiche Experimente auf öffentlichen Benchmarks und einem internen E-Commerce-Datensatz demonstrieren die überlegene Leistung von Unilogit bei der Balance zwischen Vergessen und Behalten von Informationen, wobei es state-of-the-art Methoden wie NPO und UnDIAL übertrifft. Unsere Analyse zeigt weiterhin die Robustheit von Unilogit in verschiedenen Szenarien auf und unterstreicht seine praktische Anwendbarkeit und Effektivität bei der Umsetzung eines effizienten maschinellen Verlernens.
English
This paper introduces Unilogit, a novel self-distillation method for machine
unlearning in Large Language Models. Unilogit addresses the challenge of
selectively forgetting specific information while maintaining overall model
utility, a critical task in compliance with data privacy regulations like GDPR.
Unlike prior methods that rely on static hyperparameters or starting model
outputs, Unilogit dynamically adjusts target logits to achieve a uniform
probability for the target token, leveraging the current model's outputs for
more accurate self-distillation targets. This approach not only eliminates the
need for additional hyperparameters but also enhances the model's ability to
approximate the golden targets. Extensive experiments on public benchmarks and
an in-house e-commerce dataset demonstrate Unilogit's superior performance in
balancing forget and retain objectives, outperforming state-of-the-art methods
such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness
across various scenarios, highlighting its practical applicability and
effectiveness in achieving efficacious machine unlearning.Summary
AI-Generated Summary