CRISP: Постоянное удаление концепций с использованием разреженных автокодировщиков
CRISP: Persistent Concept Unlearning via Sparse Autoencoders
August 19, 2025
Авторы: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) всё чаще применяются в реальных задачах, необходимость выборочного удаления нежелательных знаний при сохранении полезности модели становится крайне важной. В последних исследованиях изучались разреженные автоэнкодеры (SAE) для выполнения точных вмешательств в моносемантические признаки. Однако большинство методов на основе SAE работают на этапе вывода, что не создаёт устойчивых изменений в параметрах модели. Такие вмешательства могут быть обойдены или отменены злоумышленниками с доступом к параметрам. Мы представляем CRISP — параметрически эффективный метод устойчивого забывания концепций с использованием SAE. CRISP автоматически идентифицирует значимые признаки SAE на нескольких слоях и подавляет их активации. Мы экспериментируем с двумя LLM и показываем, что наш метод превосходит предыдущие подходы в задачах критически важного забывания из бенчмарка WMDP, успешно удаляя вредные знания при сохранении общих и предметно-ориентированных способностей. Анализ на уровне признаков показывает, что CRISP достигает семантически согласованного разделения между целевыми и безопасными концепциями, позволяя точно подавлять целевые признаки.
English
As large language models (LLMs) are increasingly deployed in real-world
applications, the need to selectively remove unwanted knowledge while
preserving model utility has become paramount. Recent work has explored sparse
autoencoders (SAEs) to perform precise interventions on monosemantic features.
However, most SAE-based methods operate at inference time, which does not
create persistent changes in the model's parameters. Such interventions can be
bypassed or reversed by malicious actors with parameter access. We introduce
CRISP, a parameter-efficient method for persistent concept unlearning using
SAEs. CRISP automatically identifies salient SAE features across multiple
layers and suppresses their activations. We experiment with two LLMs and show
that our method outperforms prior approaches on safety-critical unlearning
tasks from the WMDP benchmark, successfully removing harmful knowledge while
preserving general and in-domain capabilities. Feature-level analysis reveals
that CRISP achieves semantically coherent separation between target and benign
concepts, allowing precise suppression of the target features.