ChatPaper.aiChatPaper

CRISP : Désapprentissage persistant de concepts via des autoencodeurs parcimonieux

CRISP: Persistent Concept Unlearning via Sparse Autoencoders

August 19, 2025
papers.authors: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
cs.AI

papers.abstract

Alors que les grands modèles de langage (LLMs) sont de plus en plus déployés dans des applications réelles, la nécessité de supprimer sélectivement les connaissances indésirables tout en préservant l'utilité du modèle est devenue primordiale. Des travaux récents ont exploré l'utilisation d'autoencodeurs épars (SAEs) pour effectuer des interventions précises sur des caractéristiques monosémantiques. Cependant, la plupart des méthodes basées sur les SAEs opèrent au moment de l'inférence, ce qui ne crée pas de changements persistants dans les paramètres du modèle. De telles interventions peuvent être contournées ou inversées par des acteurs malveillants ayant accès aux paramètres. Nous présentons CRISP, une méthode économe en paramètres pour l'oubli persistant de concepts utilisant les SAEs. CRISP identifie automatiquement les caractéristiques saillantes des SAEs à travers plusieurs couches et supprime leurs activations. Nous expérimentons avec deux LLMs et montrons que notre méthode surpasse les approches antérieures sur des tâches critiques d'oubli du benchmark WMDP, supprimant avec succès les connaissances nuisibles tout en préservant les capacités générales et spécifiques au domaine. Une analyse au niveau des caractéristiques révèle que CRISP réalise une séparation sémantiquement cohérente entre les concepts cibles et bénins, permettant une suppression précise des caractéristiques cibles.
English
As large language models (LLMs) are increasingly deployed in real-world applications, the need to selectively remove unwanted knowledge while preserving model utility has become paramount. Recent work has explored sparse autoencoders (SAEs) to perform precise interventions on monosemantic features. However, most SAE-based methods operate at inference time, which does not create persistent changes in the model's parameters. Such interventions can be bypassed or reversed by malicious actors with parameter access. We introduce CRISP, a parameter-efficient method for persistent concept unlearning using SAEs. CRISP automatically identifies salient SAE features across multiple layers and suppresses their activations. We experiment with two LLMs and show that our method outperforms prior approaches on safety-critical unlearning tasks from the WMDP benchmark, successfully removing harmful knowledge while preserving general and in-domain capabilities. Feature-level analysis reveals that CRISP achieves semantically coherent separation between target and benign concepts, allowing precise suppression of the target features.
PDF132August 25, 2025