Unilogit: Робастное машинное «забывание» для крупных языковых моделей с использованием само-дистилляции с равномерной целью
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation
May 9, 2025
Авторы: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
cs.AI
Аннотация
В данной статье представлен Unilogit — новый метод самообучения для машинного «забывания» в крупных языковых моделях. Unilogit решает задачу избирательного удаления конкретной информации при сохранении общей полезности модели, что является критически важным для соблюдения нормативов защиты данных, таких как GDPR. В отличие от предыдущих методов, которые полагаются на статические гиперпараметры или начальные выходные данные модели, Unilogit динамически корректирует целевые логиты для достижения равномерной вероятности целевого токена, используя текущие выходные данные модели для более точных целей самообучения. Этот подход не только устраняет необходимость в дополнительных гиперпараметрах, но и улучшает способность модели приближаться к идеальным целям. Многочисленные эксперименты на публичных бенчмарках и внутреннем наборе данных электронной коммерции демонстрируют превосходство Unilogit в балансировании задач забывания и сохранения, превосходя современные методы, такие как NPO и UnDIAL. Наш анализ также выявляет устойчивость Unilogit в различных сценариях, подчеркивая его практическую применимость и эффективность в достижении результативного машинного «забывания».
English
This paper introduces Unilogit, a novel self-distillation method for machine
unlearning in Large Language Models. Unilogit addresses the challenge of
selectively forgetting specific information while maintaining overall model
utility, a critical task in compliance with data privacy regulations like GDPR.
Unlike prior methods that rely on static hyperparameters or starting model
outputs, Unilogit dynamically adjusts target logits to achieve a uniform
probability for the target token, leveraging the current model's outputs for
more accurate self-distillation targets. This approach not only eliminates the
need for additional hyperparameters but also enhances the model's ability to
approximate the golden targets. Extensive experiments on public benchmarks and
an in-house e-commerce dataset demonstrate Unilogit's superior performance in
balancing forget and retain objectives, outperforming state-of-the-art methods
such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness
across various scenarios, highlighting its practical applicability and
effectiveness in achieving efficacious machine unlearning.Summary
AI-Generated Summary