CRISP: Disapprendimento Persistente di Concetti tramite Autoencoder Sparse
CRISP: Persistent Concept Unlearning via Sparse Autoencoders
August 19, 2025
Autori: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in applicazioni reali, la necessità di rimuovere selettivamente conoscenze indesiderate preservando l'utilità del modello è diventata fondamentale. Recenti lavori hanno esplorato l'uso di autoencoder sparsi (SAE) per eseguire interventi precisi su feature monosematiche. Tuttavia, la maggior parte dei metodi basati su SAE opera al momento dell'inferenza, il che non crea cambiamenti persistenti nei parametri del modello. Tali interventi possono essere aggirati o invertiti da attori malevoli con accesso ai parametri. Introduciamo CRISP, un metodo efficiente in termini di parametri per la rimozione persistente di concetti utilizzando SAE. CRISP identifica automaticamente le feature salienti degli SAE su più livelli e ne sopprime le attivazioni. Sperimentiamo con due LLM e dimostriamo che il nostro metodo supera approcci precedenti in compiti critici di rimozione di conoscenze dal benchmark WMDP, rimuovendo con successo conoscenze dannose preservando al contempo capacità generali e specifiche del dominio. L'analisi a livello di feature rivela che CRISP ottiene una separazione semanticamente coerente tra concetti target e benigni, consentendo una soppressione precisa delle feature target.
English
As large language models (LLMs) are increasingly deployed in real-world
applications, the need to selectively remove unwanted knowledge while
preserving model utility has become paramount. Recent work has explored sparse
autoencoders (SAEs) to perform precise interventions on monosemantic features.
However, most SAE-based methods operate at inference time, which does not
create persistent changes in the model's parameters. Such interventions can be
bypassed or reversed by malicious actors with parameter access. We introduce
CRISP, a parameter-efficient method for persistent concept unlearning using
SAEs. CRISP automatically identifies salient SAE features across multiple
layers and suppresses their activations. We experiment with two LLMs and show
that our method outperforms prior approaches on safety-critical unlearning
tasks from the WMDP benchmark, successfully removing harmful knowledge while
preserving general and in-domain capabilities. Feature-level analysis reveals
that CRISP achieves semantically coherent separation between target and benign
concepts, allowing precise suppression of the target features.