ChatPaper.aiChatPaper

Precieze In-Parameter Conceptverwijdering in Grote Taalmodellen

Precise In-Parameter Concept Erasure in Large Language Models

May 28, 2025
Auteurs: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI

Samenvatting

Grote taalmodellen (LLM's) verwerven vaak kennis tijdens de voorafgaande training die ongewenst is in latere toepassingen, zoals gevoelige informatie of auteursrechtelijk beschermde inhoud. Bestaande methoden om dergelijke kennis te verwijderen, zijn gebaseerd op fine-tuning, het trainen van low-rank adapters of het bewerken op feitniveau, maar deze zijn ofwel te grof, te oppervlakkig of niet effectief. In dit werk stellen we PISCES voor (Precise In-parameter Suppression for Concept EraSure), een nieuw raamwerk om complete concepten precies te wissen uit modelparameters door de richtingen die deze coderen in de parameterruimte direct te bewerken. PISCES gebruikt een disentangler-model om MLP-vectoren te ontbinden in interpreteerbare kenmerken, identificeert die welke geassocieerd zijn met een doelconcept met behulp van geautomatiseerde interpreteerbaarheidstechnieken, en verwijdert deze uit de modelparameters. Experimenten op Gemma 2 en Llama 3.1 over verschillende concepten laten zien dat PISCES bescheiden verbeteringen in effectiviteit behaalt ten opzichte van toonaangevende verwijderingsmethoden, waarbij de nauwkeurigheid op het doelconcept wordt teruggebracht tot wel 7,7%, terwijl de specificiteit van het wissen aanzienlijk wordt verbeterd (met tot 31%) en de robuustheid (met tot 38%). Over het algemeen tonen deze resultaten aan dat feature-based in-parameter bewerking een preciezer en betrouwbaarder benadering mogelijk maakt voor het verwijderen van conceptuele kennis in taalmodellen.
English
Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.
PDF12May 29, 2025