ZeroUnlearn: Desaprendizaje de Conocimiento Few-Shot en Modelos de Lenguaje de Gran Escala

Resumen

Los modelos de lenguaje de gran escala inevitablemente retienen información sensible, definida como entradas que pueden inducir generaciones dañinas, debido al entrenamiento en corpus web masivos, lo que genera preocupaciones sobre privacidad y seguridad. Los métodos existentes de desaprendizaje automático se basan principalmente en el reentrenamiento o el ajuste fino agresivo, que son costosos computacionalmente o propensos a degradar el conocimiento relacionado y la utilidad general del modelo. En este trabajo, reformulamos el desaprendizaje automático como un problema de reasignación precisa de conocimiento mediante la edición de modelos. Proponemos ZeroUnlearn, un marco de desaprendizaje con pocos ejemplos. Sobrescribe las entradas sensibles mapeándolas a un estado objetivo neutro y eliminando sus representaciones originales. ZeroUnlearn impone ortogonalidad representacional mediante una actualización de parámetros multiplicativa con una solución de forma cerrada, permitiendo un desaprendizaje eficiente y dirigido. Además, extendemos ZeroUnlearn a una variante basada en gradientes para el desaprendizaje de múltiples muestras. Los experimentos demuestran que nuestro enfoque supera a las líneas base existentes mientras preserva la utilidad general del modelo. Nuestro código está disponible en github: https://github.com/XMUDeepLIT/ZeroUnlearn.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.