Unilogit: Robustes Maschinelles Verlernen für LLMs durch Uniform-Target-Selbstdistillation

Zusammenfassung

Dieses Papier stellt Unilogit vor, eine neuartige Selbst-Distillationsmethode für das maschinelle Verlernen in großen Sprachmodellen. Unilogit adressiert die Herausforderung, spezifische Informationen selektiv zu vergessen, während die Gesamtnützlichkeit des Modells erhalten bleibt – eine entscheidende Aufgabe zur Einhaltung von Datenschutzbestimmungen wie der DSGVO. Im Gegensatz zu früheren Methoden, die sich auf statische Hyperparameter oder Ausgangsmodellausgaben stützen, passt Unilogit die Ziel-Logits dynamisch an, um eine gleichmäßige Wahrscheinlichkeit für das Ziel-Token zu erreichen, und nutzt dabei die aktuellen Modellausgaben für präzisere Selbst-Distillationsziele. Dieser Ansatz eliminiert nicht nur den Bedarf an zusätzlichen Hyperparametern, sondern verbessert auch die Fähigkeit des Modells, die optimalen Ziele anzunähern. Umfangreiche Experimente auf öffentlichen Benchmarks und einem internen E-Commerce-Datensatz demonstrieren die überlegene Leistung von Unilogit bei der Balance zwischen Vergessen und Behalten von Informationen, wobei es state-of-the-art Methoden wie NPO und UnDIAL übertrifft. Unsere Analyse zeigt weiterhin die Robustheit von Unilogit in verschiedenen Szenarien auf und unterstreicht seine praktische Anwendbarkeit und Effektivität bei der Umsetzung eines effizienten maschinellen Verlernens.

English

This paper introduces Unilogit, a novel self-distillation method for machine unlearning in Large Language Models. Unilogit addresses the challenge of selectively forgetting specific information while maintaining overall model utility, a critical task in compliance with data privacy regulations like GDPR. Unlike prior methods that rely on static hyperparameters or starting model outputs, Unilogit dynamically adjusts target logits to achieve a uniform probability for the target token, leveraging the current model's outputs for more accurate self-distillation targets. This approach not only eliminates the need for additional hyperparameters but also enhances the model's ability to approximate the golden targets. Extensive experiments on public benchmarks and an in-house e-commerce dataset demonstrate Unilogit's superior performance in balancing forget and retain objectives, outperforming state-of-the-art methods such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness across various scenarios, highlighting its practical applicability and effectiveness in achieving efficacious machine unlearning.

Unilogit: Robustes Maschinelles Verlernen für LLMs durch Uniform-Target-Selbstdistillation

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

Zusammenfassung

Support