Disapprendimento pratico per modelli linguistici di grandi dimensioni

Abstract

Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano dimostrato prestazioni impressionanti in vari domini e compiti, i loro problemi di sicurezza sono diventati sempre più gravi. Il machine unlearning (MU) è emerso come una soluzione promettente per affrontare questi problemi rimuovendo l'influenza di dati indesiderati sul modello target senza comprometterne l'utilità in altri aspetti. Il MU assume tipicamente l'accesso completo ai dati di addestramento originali per preservare l'utilità, il che è difficile da ottenere nel contesto degli LLM. I metodi esistenti di unlearning per LLM spesso presuppongono l'accesso ai dati più influenzati dalla rimozione di dati indesiderati. Tuttavia, questa ipotesi sottovaluta l'intreccio tra le varie capacità degli LLM e ignora le limitazioni di accesso ai dati dovute a vari problemi. Inoltre, questi metodi di unlearning per LLM non considerano sufficientemente che le richieste di unlearning negli scenari reali emergono continuamente. Per superare queste sfide e raggiungere un unlearning pratico per gli LLM, proponiamo il framework O3. Il framework O3 include un rilevatore Out-Of-Distribution (OOD) per misurare la similarità tra input e dati da dimenticare, e un adattatore Orthogonal Low-Rank (LoRA) per dimenticare continuamente i dati richiesti. Il rilevatore OOD è addestrato con una nuova funzione di perdita entropica contrastiva e utilizza un meccanismo di punteggio aggregato a livello locale-globale. Il LoRA ortogonale raggiunge la separazione dei parametri tra le richieste continue di unlearning. Durante l'inferenza, il nostro framework O3 può decidere in modo intelligente se e in che misura caricare il LoRA di unlearning in base alle previsioni del rilevatore OOD. È importante notare che l'efficacia di O3 non si basa su alcun dato conservato. Abbiamo condotto esperimenti estesi su O3 e sui metodi di unlearning per LLM più avanzati su tre compiti e sette dataset. I risultati indicano che O3 raggiunge costantemente il miglior compromesso tra efficacia di unlearning e preservazione dell'utilità, specialmente di fronte a richieste continue di unlearning.

English

While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests.

Disapprendimento pratico per modelli linguistici di grandi dimensioni

Practical Unlearning for Large Language Models

Abstract

Support