RepSelect: Надёжное разобучение LLM посредством селективности представлений

Аннотация

Создание условий, при которых крупные языковые модели (LLM) глубоко забывают конкретные знания и ценности, не жертвуя при этом общими возможностями, остается ключевой проблемой в области разучения. Однако текущие методы легко обращаются вспять с помощью дообучения или запросов с несколькими примерами, что указывает на поверхностный характер такого забывания. Мы выявляем коренную причину этого. Существующие методы нацелены на представления, общие как для сохраняемого набора данных, так и для подпространства, восстанавливаемого атакующим через дообучение, что делает разучение одновременно разрушительным для общих возможностей и легко обратимым. Мы предлагаем RepSelect (Selectivity of Representations — избирательность представлений), который изолирует представления, специфичные для забываемого набора, путем подавления главных компонент градиентов весов перед каждым обновлением, сохраняя общие возможности нетронутыми и ограничивая то, что может быть восстановлено дообучением. Мы проводим оценку по двум категориям забывания — знаниям о биоопасностях и склонностям к оскорбительному поведению — и по четырем семействам моделей, охватывающим плотные архитектуры и архитектуры со смесью экспертов (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). По сравнению с пятью популярными базовыми методами (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect обеспечивает в 4–50 раз большее снижение точности ответов после повторного обучения, чем самый сильный базовый метод, и демонстрирует почти идеальную устойчивость к атакам с помощью запросов с несколькими примерами. Таким образом, нацеливание на избирательные представления является важным шагом на пути к глубокому и надежному забыванию в LLM.

English

Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tuning or few-shot prompting, suggesting their forgetting is only shallow. We identify the root cause. Existing methods target representations shared with both the retain set and the subspace recovered by a fine-tuning attacker, making unlearning both disruptive to general capabilities and easy to reverse. We propose RepSelect (Representation Selectivity), isolates forget-set-specific representations by collapsing top principal components of weight gradients before each update, leaving general capabilities intact while limiting what fine-tuning can recover. We evaluate across two forget categories, biohazardous knowledge and abusive tendencies, and four model families spanning dense and Mixture-of-Experts architectures (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Compared to five popular baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect achieves a 4-50x larger reduction in post-relearning answer accuracy than the strongest baseline, and is near-perfectly robust to few-shot prompting attacks. Targeting selective representations is thus an important step towards deep and robust LLM forgetting.