ChatPaper.aiChatPaper

LLM-забывание должно быть независимым от формы.

LLM Unlearning Should Be Form-Independent

June 9, 2025
Авторы: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI

Аннотация

Методы "забывания" в больших языковых моделях (LLM) направлены на удаление или подавление нежелательных знаний внутри модели, что открывает перспективы для контроля над вредоносной или конфиденциальной информацией с целью предотвращения её неправомерного использования. Однако последние исследования подчеркивают ограниченную эффективность этих методов в реальных сценариях, что затрудняет их практическое применение. В данном исследовании мы выявляем распространённую проблему, лежащую в основе многих неудач на последующих этапах: эффективность существующих методов "забывания" сильно зависит от формы обучающих выборок и часто не способна обобщаться на альтернативные выражения одного и того же знания. Мы формально определяем эту проблему как "Форма-зависимую предвзятость" и систематически исследуем её конкретные проявления в различных задачах. Для количественной оценки её распространённости и поддержки будущих исследований мы представляем ORT — новый эталонный тест, предназначенный для оценки устойчивости методов "забывания" к вариациям в выражении знаний. Результаты показывают, что "Форма-зависимая предвзятость" является широко распространённой и серьёзной проблемой среди современных методов. Мы утверждаем, что "забывание" в LLM должно быть независимым от формы, чтобы справляться с бесконечным разнообразием задач, встречающихся в реальных сценариях, критичных для безопасности. В этом направлении мы представляем метод "Редирекция концептов ранга один" (ROCR) — новый подход, не требующий обучения, как перспективное решение. ROCR выполняет "забывание", нацеливаясь на инварианты в последующих задачах, а именно на активированные опасные концепты. Он способен модифицировать параметры модели за считанные секунды, перенаправляя восприятие моделью конкретного целевого концепта на другой безвредный концепт. Многочисленные эксперименты демонстрируют, что ROCR значительно повышает эффективность "забывания" по сравнению с традиционными методами, при этом генерируя высоко естественные выходные данные.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model's perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.
PDF32June 13, 2025