ChatPaper.aiChatPaper

Cancellazione Precisa dei Concetti nei Parametri dei Modelli Linguistici di Grandi Dimensioni

Precise In-Parameter Concept Erasure in Large Language Models

May 28, 2025
Autori: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) spesso acquisiscono durante il pretraining conoscenze indesiderate nei successivi utilizzi, come informazioni sensibili o contenuti protetti da copyright. Gli approcci esistenti per rimuovere tali conoscenze si basano su fine-tuning, addestramento di adattatori a basso rango o modifica a livello di fatti, ma questi sono troppo approssimativi, superficiali o inefficaci. In questo lavoro, proponiamo PISCES (Precise In-parameter Suppression for Concept EraSure), un nuovo framework per cancellare con precisione interi concetti dai parametri del modello modificando direttamente le direzioni che li codificano nello spazio dei parametri. PISCES utilizza un modello di disaccoppiamento per scomporre i vettori MLP in caratteristiche interpretabili, identifica quelle associate a un concetto target utilizzando tecniche di interpretabilità automatizzata e le rimuove dai parametri del modello. Esperimenti su Gemma 2 e Llama 3.1 su vari concetti mostrano che PISCES ottiene modesti miglioramenti in efficacia rispetto ai principali metodi di cancellazione, riducendo l'accuratezza sul concetto target fino al 7,7%, migliorando drasticamente la specificità della cancellazione (fino al 31%) e la robustezza (fino al 38%). Nel complesso, questi risultati dimostrano che la modifica in-parametro basata su caratteristiche consente un approccio più preciso e affidabile per rimuovere conoscenze concettuali nei modelli linguistici.
English
Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.
PDF12May 29, 2025