Desaprendizagem Prática para Modelos de Linguagem Grandes

Resumo

Embora os LLMs tenham demonstrado um desempenho impressionante em vários domínios e tarefas, seus problemas de segurança tornaram-se cada vez mais graves. O desaprendizado de máquina (MU) surgiu como uma solução promissora para lidar com esses problemas, removendo a influência de dados indesejados no modelo alvo sem comprometer sua utilidade em outros aspectos. O MU normalmente pressupõe acesso total aos dados de treinamento originais para preservar a utilidade, o que é difícil de alcançar no desaprendizado de LLM. Métodos existentes de desaprendizado de LLM frequentemente pressupõem acesso aos dados mais afetados pelo desaprendizado de dados indesejados. No entanto, essa suposição subestima o entrelaçamento entre várias capacidades de LLM e ignora limitações de acesso a dados devido a várias questões. Além disso, esses métodos de desaprendizado de LLM não consideram suficientemente que solicitações de desaprendizado em cenários do mundo real estão continuamente surgindo. Para superar esses desafios e alcançar um desaprendizado prático de LLM, propomos o framework O3. O framework O3 inclui um detector Out-Of-Distribution (OOD) para medir a similaridade entre dados de entrada e de desaprendizado, e um adaptador ortogonal de baixa patente (LoRA) para desaprender continuamente os dados solicitados. O detector OOD é treinado com uma nova perda de entropia constrastiva e utiliza um mecanismo de pontuação agregado de camada local-global. O LoRA ortogonal alcança o desentrelaçamento de parâmetros entre solicitações contínuas de desaprendizado. Durante a inferência, nosso framework O3 pode decidir de forma inteligente se e em que medida carregar o LoRA de desaprendizado com base nas previsões do detector OOD. Notavelmente, a eficácia do O3 não depende de nenhum dado retido. Realizamos experimentos extensivos com o O3 e métodos de desaprendizado de LLM de última geração em três tarefas e sete conjuntos de dados. Os resultados indicam que o O3 consistentemente alcança o melhor equilíbrio entre eficácia de desaprendizado e preservação de utilidade, especialmente quando enfrenta solicitações contínuas de desaprendizado.

English

While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests.

Desaprendizagem Prática para Modelos de Linguagem Grandes

Practical Unlearning for Large Language Models

Resumo

Support