ChatPaper.aiChatPaper

CRISP: Disapprendimento Persistente di Concetti tramite Autoencoder Sparse

CRISP: Persistent Concept Unlearning via Sparse Autoencoders

August 19, 2025
Autori: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in applicazioni reali, la necessità di rimuovere selettivamente conoscenze indesiderate preservando l'utilità del modello è diventata fondamentale. Recenti lavori hanno esplorato l'uso di autoencoder sparsi (SAE) per eseguire interventi precisi su feature monosematiche. Tuttavia, la maggior parte dei metodi basati su SAE opera al momento dell'inferenza, il che non crea cambiamenti persistenti nei parametri del modello. Tali interventi possono essere aggirati o invertiti da attori malevoli con accesso ai parametri. Introduciamo CRISP, un metodo efficiente in termini di parametri per la rimozione persistente di concetti utilizzando SAE. CRISP identifica automaticamente le feature salienti degli SAE su più livelli e ne sopprime le attivazioni. Sperimentiamo con due LLM e dimostriamo che il nostro metodo supera approcci precedenti in compiti critici di rimozione di conoscenze dal benchmark WMDP, rimuovendo con successo conoscenze dannose preservando al contempo capacità generali e specifiche del dominio. L'analisi a livello di feature rivela che CRISP ottiene una separazione semanticamente coerente tra concetti target e benigni, consentendo una soppressione precisa delle feature target.
English
As large language models (LLMs) are increasingly deployed in real-world applications, the need to selectively remove unwanted knowledge while preserving model utility has become paramount. Recent work has explored sparse autoencoders (SAEs) to perform precise interventions on monosemantic features. However, most SAE-based methods operate at inference time, which does not create persistent changes in the model's parameters. Such interventions can be bypassed or reversed by malicious actors with parameter access. We introduce CRISP, a parameter-efficient method for persistent concept unlearning using SAEs. CRISP automatically identifies salient SAE features across multiple layers and suppresses their activations. We experiment with two LLMs and show that our method outperforms prior approaches on safety-critical unlearning tasks from the WMDP benchmark, successfully removing harmful knowledge while preserving general and in-domain capabilities. Feature-level analysis reveals that CRISP achieves semantically coherent separation between target and benign concepts, allowing precise suppression of the target features.
PDF152August 25, 2025