Praktisches Vergessen für große Sprachmodelle

papers.abstract

Obwohl LLMs beeindruckende Leistungen in verschiedenen Bereichen und Aufgaben gezeigt haben, sind ihre Sicherheitsprobleme zunehmend schwerwiegend geworden. Das sogenannte Machine Unlearning (MU) hat sich als vielversprechende Lösung zur Bewältigung dieser Probleme herausgestellt, indem der Einfluss unerwünschter Daten auf das Zielmodell beseitigt wird, ohne dessen Nützlichkeit in anderen Aspekten zu beeinträchtigen. MU geht in der Regel davon aus, vollen Zugriff auf die ursprünglichen Trainingsdaten zu haben, um die Nützlichkeit zu bewahren, was beim Unlearning von LLMs schwer zu erreichen ist. Bestehende Methoden zum Unlearning von LLMs gehen oft davon aus, Zugriff auf die Daten zu haben, die am stärksten vom Unlearning unerwünschter Daten betroffen sind. Diese Annahme unterschätzt jedoch die Verflechtung verschiedener Fähigkeiten von LLMs und ignoriert Datenzugriffsbeschränkungen aufgrund verschiedener Probleme. Darüber hinaus berücksichtigen diese Methoden zum Unlearning von LLMs nicht ausreichend, dass Unlearning-Anfragen in realen Szenarien kontinuierlich auftreten. Um diese Herausforderungen zu überwinden und praktisches Unlearning von LLMs zu erreichen, schlagen wir das O3-Framework vor. Das O3-Framework umfasst einen Out-Of-Distribution (OOD)-Detektor zur Messung der Ähnlichkeit zwischen Eingabe- und Unlearning-Daten sowie einen Orthogonal Low-Rank Adapter (LoRA) zur kontinuierlichen Entfernung angeforderter Daten. Der OOD-Detektor wird mit einem neuartigen kontrastiven Entropieverlust trainiert und verwendet einen lokal-globalen Schicht-aggregierten Bewertungsmechanismus. Der orthogonale LoRA erreicht eine Parameter-Entflechtung zwischen kontinuierlichen Unlearning-Anfragen. Während der Inferenz kann unser O3-Framework intelligent entscheiden, ob und in welchem Maße der Unlearning LoRA basierend auf den Vorhersagen des OOD-Detektors geladen werden soll. Beachtenswert ist, dass die Wirksamkeit von O3 nicht auf beibehaltenen Daten beruht. Wir führten umfangreiche Experimente mit O3 und state-of-the-art LLM Unlearning-Methoden in drei Aufgaben und sieben Datensätzen durch. Die Ergebnisse zeigen, dass O3 konsistent den besten Kompromiss zwischen Unlearning-Effektivität und Nützlichkeitserhalt erzielt, insbesondere bei kontinuierlichen Unlearning-Anfragen.

English

While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests.

Praktisches Vergessen für große Sprachmodelle

Practical Unlearning for Large Language Models

papers.abstract

Support