Praktisches Vergessen für große Sprachmodelle
Practical Unlearning for Large Language Models
July 14, 2024
Autoren: Chongyang Gao, Lixu Wang, Chenkai Weng, Xiao Wang, Qi Zhu
cs.AI
Zusammenfassung
Obwohl LLMs beeindruckende Leistungen in verschiedenen Bereichen und Aufgaben gezeigt haben, sind ihre Sicherheitsprobleme zunehmend schwerwiegend geworden. Das sogenannte Machine Unlearning (MU) hat sich als vielversprechende Lösung zur Bewältigung dieser Probleme herausgestellt, indem der Einfluss unerwünschter Daten auf das Zielmodell beseitigt wird, ohne dessen Nützlichkeit in anderen Aspekten zu beeinträchtigen. MU geht in der Regel davon aus, vollen Zugriff auf die ursprünglichen Trainingsdaten zu haben, um die Nützlichkeit zu bewahren, was beim Unlearning von LLMs schwer zu erreichen ist. Bestehende Methoden zum Unlearning von LLMs gehen oft davon aus, Zugriff auf die Daten zu haben, die am stärksten vom Unlearning unerwünschter Daten betroffen sind. Diese Annahme unterschätzt jedoch die Verflechtung verschiedener Fähigkeiten von LLMs und ignoriert Datenzugriffsbeschränkungen aufgrund verschiedener Probleme. Darüber hinaus berücksichtigen diese Methoden zum Unlearning von LLMs nicht ausreichend, dass Unlearning-Anfragen in realen Szenarien kontinuierlich auftreten. Um diese Herausforderungen zu überwinden und praktisches Unlearning von LLMs zu erreichen, schlagen wir das O3-Framework vor. Das O3-Framework umfasst einen Out-Of-Distribution (OOD)-Detektor zur Messung der Ähnlichkeit zwischen Eingabe- und Unlearning-Daten sowie einen Orthogonal Low-Rank Adapter (LoRA) zur kontinuierlichen Entfernung angeforderter Daten. Der OOD-Detektor wird mit einem neuartigen kontrastiven Entropieverlust trainiert und verwendet einen lokal-globalen Schicht-aggregierten Bewertungsmechanismus. Der orthogonale LoRA erreicht eine Parameter-Entflechtung zwischen kontinuierlichen Unlearning-Anfragen. Während der Inferenz kann unser O3-Framework intelligent entscheiden, ob und in welchem Maße der Unlearning LoRA basierend auf den Vorhersagen des OOD-Detektors geladen werden soll. Beachtenswert ist, dass die Wirksamkeit von O3 nicht auf beibehaltenen Daten beruht. Wir führten umfangreiche Experimente mit O3 und state-of-the-art LLM Unlearning-Methoden in drei Aufgaben und sieben Datensätzen durch. Die Ergebnisse zeigen, dass O3 konsistent den besten Kompromiss zwischen Unlearning-Effektivität und Nützlichkeitserhalt erzielt, insbesondere bei kontinuierlichen Unlearning-Anfragen.
English
While LLMs have demonstrated impressive performance across various domains
and tasks, their security issues have become increasingly severe. Machine
unlearning (MU) has emerged as a promising solution to address these issues by
removing the influence of undesired data on the target model without
compromising its utility in other aspects. MU typically assumes full access to
the original training data to preserve utility, which is difficult to achieve
in LLM unlearning. Existing LLM unlearning methods often assume access to data
most affected by undesired data unlearning. However, this assumption
underestimates the entanglement among various LLM capabilities and ignores data
access limitations due to various issues. Moreover, these LLM unlearning
methods do not sufficiently consider that unlearning requests in real-world
scenarios are continuously emerging. To overcome these challenges and achieve
practical LLM unlearning, we propose the O3 framework. The O3 framework
includes an Out-Of-Distribution (OOD) detector to measure the similarity
between input and unlearning data, and an Orthogonal low-rank adapter (LoRA)
for continuously unlearning requested data. The OOD detector is trained with a
novel contrastive entropy loss and utilizes a local-global layer-aggregated
scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among
continual unlearning requests. During inference, our O3 framework can smartly
decide whether and to what extent to load the unlearning LoRA based on the OOD
detector's predictions. Notably, O3's effectiveness does not rely on any
retained data. We conducted extensive experiments on O3 and state-of-the-art
LLM unlearning methods across three tasks and seven datasets. The results
indicate that O3 consistently achieves the best trade-off between unlearning
effectiveness and utility preservation, especially when facing continuous
unlearning requests.Summary
AI-Generated Summary