Precieze In-Parameter Conceptverwijdering in Grote Taalmodellen
Precise In-Parameter Concept Erasure in Large Language Models
May 28, 2025
Auteurs: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI
Samenvatting
Grote taalmodellen (LLM's) verwerven vaak kennis tijdens de voorafgaande training die ongewenst is in latere toepassingen, zoals gevoelige informatie of auteursrechtelijk beschermde inhoud. Bestaande methoden om dergelijke kennis te verwijderen, zijn gebaseerd op fine-tuning, het trainen van low-rank adapters of het bewerken op feitniveau, maar deze zijn ofwel te grof, te oppervlakkig of niet effectief. In dit werk stellen we PISCES voor (Precise In-parameter Suppression for Concept EraSure), een nieuw raamwerk om complete concepten precies te wissen uit modelparameters door de richtingen die deze coderen in de parameterruimte direct te bewerken. PISCES gebruikt een disentangler-model om MLP-vectoren te ontbinden in interpreteerbare kenmerken, identificeert die welke geassocieerd zijn met een doelconcept met behulp van geautomatiseerde interpreteerbaarheidstechnieken, en verwijdert deze uit de modelparameters. Experimenten op Gemma 2 en Llama 3.1 over verschillende concepten laten zien dat PISCES bescheiden verbeteringen in effectiviteit behaalt ten opzichte van toonaangevende verwijderingsmethoden, waarbij de nauwkeurigheid op het doelconcept wordt teruggebracht tot wel 7,7%, terwijl de specificiteit van het wissen aanzienlijk wordt verbeterd (met tot 31%) en de robuustheid (met tot 38%). Over het algemeen tonen deze resultaten aan dat feature-based in-parameter bewerking een preciezer en betrouwbaarder benadering mogelijk maakt voor het verwijderen van conceptuele kennis in taalmodellen.
English
Large language models (LLMs) often acquire knowledge during pretraining that
is undesirable in downstream deployments, e.g., sensitive information or
copyrighted content. Existing approaches for removing such knowledge rely on
fine-tuning, training low-rank adapters or fact-level editing, but these are
either too coarse, too shallow, or ineffective. In this work, we propose PISCES
(Precise In-parameter Suppression for Concept EraSure), a novel framework for
precisely erasing entire concepts from model parameters by directly editing
directions that encode them in parameter space. PISCES uses a disentangler
model to decompose MLP vectors into interpretable features, identifies those
associated with a target concept using automated interpretability techniques,
and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1
over various concepts show that PISCES achieves modest gains in efficacy over
leading erasure methods, reducing accuracy on the target concept to as low as
7.7%, while dramatically improving erasure specificity (by up to 31%) and
robustness (by up to 38%). Overall, these results demonstrate that
feature-based in-parameter editing enables a more precise and reliable approach
for removing conceptual knowledge in language models.