Desaprendizaje Práctico para Modelos de Lenguaje Grandes
Practical Unlearning for Large Language Models
July 14, 2024
Autores: Chongyang Gao, Lixu Wang, Chenkai Weng, Xiao Wang, Qi Zhu
cs.AI
Resumen
Si bien los LLM han demostrado un rendimiento impresionante en diversos dominios y tareas, sus problemas de seguridad se han vuelto cada vez más graves. El desaprendizaje automático (MU) ha surgido como una solución prometedora para abordar estos problemas al eliminar la influencia de datos no deseados en el modelo objetivo sin comprometer su utilidad en otros aspectos. El MU generalmente asume acceso completo a los datos de entrenamiento originales para preservar la utilidad, lo cual es difícil de lograr en el desaprendizaje de LLM. Los métodos de desaprendizaje de LLM existentes a menudo asumen acceso a los datos más afectados por el desaprendizaje de datos no deseados. Sin embargo, esta suposición subestima la interconexión entre varias capacidades de LLM e ignora las limitaciones de acceso a datos debido a diversos problemas. Además, estos métodos de desaprendizaje de LLM no consideran suficientemente que las solicitudes de desaprendizaje en escenarios del mundo real están surgiendo continuamente. Para superar estos desafíos y lograr un desaprendizaje de LLM práctico, proponemos el marco O3. El marco O3 incluye un detector de Fuera de Distribución (OOD) para medir la similitud entre los datos de entrada y de desaprendizaje, y un adaptador ortogonal de rango bajo (LoRA) para desaprender continuamente los datos solicitados. El detector OOD se entrena con una nueva pérdida de entropía contrastiva y utiliza un mecanismo de puntuación agregada de capa local-global. El LoRA ortogonal logra el desenredamiento de parámetros entre las solicitudes de desaprendizaje continuas. Durante la inferencia, nuestro marco O3 puede decidir de manera inteligente si y en qué medida cargar el LoRA de desaprendizaje en función de las predicciones del detector OOD. Es importante destacar que la efectividad de O3 no depende de ningún dato retenido. Realizamos experimentos exhaustivos con O3 y métodos de desaprendizaje de LLM de última generación en tres tareas y siete conjuntos de datos. Los resultados indican que O3 logra consistentemente el mejor equilibrio entre la efectividad de desaprendizaje y la preservación de la utilidad, especialmente cuando se enfrenta a solicitudes de desaprendizaje continuas.
English
While LLMs have demonstrated impressive performance across various domains
and tasks, their security issues have become increasingly severe. Machine
unlearning (MU) has emerged as a promising solution to address these issues by
removing the influence of undesired data on the target model without
compromising its utility in other aspects. MU typically assumes full access to
the original training data to preserve utility, which is difficult to achieve
in LLM unlearning. Existing LLM unlearning methods often assume access to data
most affected by undesired data unlearning. However, this assumption
underestimates the entanglement among various LLM capabilities and ignores data
access limitations due to various issues. Moreover, these LLM unlearning
methods do not sufficiently consider that unlearning requests in real-world
scenarios are continuously emerging. To overcome these challenges and achieve
practical LLM unlearning, we propose the O3 framework. The O3 framework
includes an Out-Of-Distribution (OOD) detector to measure the similarity
between input and unlearning data, and an Orthogonal low-rank adapter (LoRA)
for continuously unlearning requested data. The OOD detector is trained with a
novel contrastive entropy loss and utilizes a local-global layer-aggregated
scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among
continual unlearning requests. During inference, our O3 framework can smartly
decide whether and to what extent to load the unlearning LoRA based on the OOD
detector's predictions. Notably, O3's effectiveness does not rely on any
retained data. We conducted extensive experiments on O3 and state-of-the-art
LLM unlearning methods across three tasks and seven datasets. The results
indicate that O3 consistently achieves the best trade-off between unlearning
effectiveness and utility preservation, especially when facing continuous
unlearning requests.Summary
AI-Generated Summary