Präzise In-Parameter-Konzeptlöschung in großen Sprachmodellen
Precise In-Parameter Concept Erasure in Large Language Models
May 28, 2025
Autoren: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) erwerben während des Pretrainings oft Wissen, das in nachgelagerten Anwendungen unerwünscht ist, z. B. sensible Informationen oder urheberrechtlich geschützte Inhalte. Bestehende Ansätze zur Entfernung solchen Wissens basieren auf Feinabstimmung, dem Training von Low-Rank-Adaptern oder der Bearbeitung auf Faktenebene, doch diese sind entweder zu grob, zu oberflächlich oder unwirksam. In dieser Arbeit schlagen wir PISCES (Precise In-parameter Suppression for Concept EraSure) vor, ein neuartiges Framework, das gezielt ganze Konzepte aus den Modellparametern löscht, indem es direkt die Richtungen bearbeitet, die diese im Parameterraum kodieren. PISCES verwendet ein Disentangler-Modell, um MLP-Vektoren in interpretierbare Merkmale zu zerlegen, identifiziert mithilfe automatisierter Interpretierbarkeitstechniken jene, die mit einem Zielkonzept assoziiert sind, und entfernt sie aus den Modellparametern. Experimente mit Gemma 2 und Llama 3.1 über verschiedene Konzepte zeigen, dass PISCES bescheidene Verbesserungen in der Wirksamkeit gegenüber führenden Löschmethoden erzielt, indem die Genauigkeit beim Zielkonzept auf bis zu 7,7 % reduziert wird, während gleichzeitig die Löschspezifität (um bis zu 31 %) und Robustheit (um bis zu 38 %) deutlich verbessert werden. Insgesamt demonstrieren diese Ergebnisse, dass die merkmalsbasierte Bearbeitung im Parameterraum einen präziseren und zuverlässigeren Ansatz zur Entfernung konzeptuellen Wissens in Sprachmodellen ermöglicht.
English
Large language models (LLMs) often acquire knowledge during pretraining that
is undesirable in downstream deployments, e.g., sensitive information or
copyrighted content. Existing approaches for removing such knowledge rely on
fine-tuning, training low-rank adapters or fact-level editing, but these are
either too coarse, too shallow, or ineffective. In this work, we propose PISCES
(Precise In-parameter Suppression for Concept EraSure), a novel framework for
precisely erasing entire concepts from model parameters by directly editing
directions that encode them in parameter space. PISCES uses a disentangler
model to decompose MLP vectors into interpretable features, identifies those
associated with a target concept using automated interpretability techniques,
and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1
over various concepts show that PISCES achieves modest gains in efficacy over
leading erasure methods, reducing accuracy on the target concept to as low as
7.7%, while dramatically improving erasure specificity (by up to 31%) and
robustness (by up to 38%). Overall, these results demonstrate that
feature-based in-parameter editing enables a more precise and reliable approach
for removing conceptual knowledge in language models.Summary
AI-Generated Summary