Практическое забывание для больших языковых моделей

Аннотация

Хотя LLM продемонстрировали впечатляющую производительность в различных областях и задачах, их проблемы безопасности стали все более серьезными. Машинное разучивание (MU) возникло как многообещающее решение для решения этих проблем путем устранения влияния нежелательных данных на целевую модель без ущерба ее полезности в других аспектах. MU обычно предполагает полный доступ к исходным данным обучения для сохранения полезности, что трудно достичь в процессе разучивания LLM. Существующие методы разучивания LLM часто предполагают доступ к данным, наиболее затронутым процессом разучивания нежелательных данных. Однако это предположение недооценивает взаимосвязь между различными возможностями LLM и игнорирует ограничения доступа к данным из-за различных проблем. Более того, эти методы разучивания LLM недостаточно учитывают тот факт, что запросы на разучивание в реальных сценариях постоянно возникают. Для преодоления этих проблем и достижения практического разучивания LLM мы предлагаем фреймворк O3. Фреймворк O3 включает детектор внедрения (OOD), чтобы измерить сходство между входными и данными разучивания, и ортогональный адаптер низкого ранга (LoRA) для непрерывного разучивания запрошенных данных. Детектор OOD обучается с использованием новой потери контрастной энтропии и использует механизм оценки слоев на основе локальных и глобальных данных. Ортогональный LoRA достигает разделения параметров среди непрерывных запросов на разучивание. Во время вывода наш фреймворк O3 может умно решить, загружать ли и в какой степени разучивающийся LoRA на основе прогнозов детектора OOD. Следует отметить, что эффективность O3 не зависит от сохраненных данных. Мы провели обширные эксперименты с O3 и передовыми методами разучивания LLM по трем задачам и семи наборам данных. Результаты показывают, что O3 последовательно достигает лучшего баланса между эффективностью разучивания и сохранением полезности, особенно при столкновении с непрерывными запросами на разучивание.

English

While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests.

Практическое забывание для больших языковых моделей

Practical Unlearning for Large Language Models

Аннотация

Support