ZeroUnlearn: Малошотовое разучение знаний в больших языковых моделях

Аннотация

Крупные языковые модели неизбежно сохраняют конфиденциальную информацию, определяемую как входные данные, которые могут вызывать вредоносные генерации, из-за обучения на огромных веб-корпусах, что вызывает обеспокоенность по поводу конфиденциальности и безопасности. Существующие методы машинного забывания в основном полагаются на переобучение или агрессивную тонкую настройку, которые либо требуют значительных вычислительных затрат, либо склонны ухудшать связанные знания и общую полезность модели. В этой работе мы переформулируем машинное забывание как задачу точного переназначения знаний с помощью редактирования модели. Мы предлагаем ZeroUnlearn — фреймворк для забывания на основе нескольких примеров. Он перезаписывает конфиденциальные входные данные, отображая их в нейтральное целевое состояние и удаляя их исходные представления. ZeroUnlearn обеспечивает ортогональность представлений с помощью мультипликативного обновления параметров с решением в замкнутой форме, что позволяет осуществлять эффективное и целенаправленное забывание. Мы также расширяем ZeroUnlearn до варианта на основе градиента для забывания множественных образцов. Эксперименты показывают, что наш подход превосходит существующие базовые методы, сохраняя при этом общую полезность модели. Наш код доступен на GitHub: https://github.com/XMUDeepLIT/ZeroUnlearn.

English

Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.