Praktisch Vergeten voor Grote Taalmodellen

Samenvatting

Hoewel LLM's indrukwekkende prestaties hebben laten zien in verschillende domeinen en taken, zijn hun beveiligingsproblemen steeds ernstiger geworden. Machine unlearning (MU) is naar voren gekomen als een veelbelovende oplossing om deze problemen aan te pakken door de invloed van ongewenste data op het doelmodel te verwijderen zonder het nut ervan in andere aspecten aan te tasten. MU gaat er doorgaans van uit dat er volledige toegang is tot de oorspronkelijke trainingsdata om het nut te behouden, wat moeilijk te realiseren is bij LLM unlearning. Bestaande LLM unlearning-methoden gaan er vaak van uit dat er toegang is tot de data die het meest beïnvloed worden door het verwijderen van ongewenste data. Deze aanname onderschat echter de verstrengeling tussen verschillende LLM-capaciteiten en negeert beperkingen in data-toegang vanwege diverse problemen. Bovendien houden deze LLM unlearning-methoden onvoldoende rekening met het feit dat unlearning-verzoeken in real-world scenario's continu opkomen. Om deze uitdagingen te overwinnen en praktisch LLM unlearning te bereiken, stellen we het O3-framework voor. Het O3-framework omvat een Out-Of-Distribution (OOD) detector om de gelijkenis tussen invoer en unlearning-data te meten, en een Orthogonale low-rank adapter (LoRA) voor het continu verwijderen van aangevraagde data. De OOD-detector wordt getraind met een nieuwe contrastieve entropieverliesfunctie en maakt gebruik van een lokaal-globaal laag-geaggregeerd scoringsmechanisme. De orthogonale LoRA bereikt parameterontwarring tussen voortdurende unlearning-verzoeken. Tijdens inferentie kan ons O3-framework slim beslissen of en in hoeverre de unlearning LoRA moet worden geladen op basis van de voorspellingen van de OOD-detector. Opmerkelijk is dat de effectiviteit van O3 niet afhankelijk is van enige bewaarde data. We hebben uitgebreide experimenten uitgevoerd met O3 en state-of-the-art LLM unlearning-methoden over drie taken en zeven datasets. De resultaten geven aan dat O3 consistent de beste balans bereikt tussen unlearning-effectiviteit en nuttigheidsbehoud, vooral bij het omgaan met continue unlearning-verzoeken.

English

While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests.

Praktisch Vergeten voor Grote Taalmodellen

Practical Unlearning for Large Language Models

Samenvatting

Support