ChatPaper.aiChatPaper

Effacement précis des concepts dans les paramètres des grands modèles de langage

Precise In-Parameter Concept Erasure in Large Language Models

May 28, 2025
Auteurs: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI

Résumé

Les grands modèles de langage (LLM) acquièrent souvent des connaissances lors du prétraitement qui sont indésirables dans les déploiements en aval, par exemple des informations sensibles ou du contenu protégé par des droits d'auteur. Les approches existantes pour supprimer ces connaissances reposent sur le réglage fin, l'entraînement d'adaptateurs de bas rang ou l'édition au niveau des faits, mais celles-ci sont soit trop grossières, soit trop superficielles, ou inefficaces. Dans ce travail, nous proposons PISCES (Suppression précise in-paramètre pour l'effacement de concepts), un nouveau cadre pour effacer précisément des concepts entiers des paramètres du modèle en modifiant directement les directions qui les encodent dans l'espace des paramètres. PISCES utilise un modèle de désentrelacement pour décomposer les vecteurs MLP en caractéristiques interprétables, identifie celles associées à un concept cible à l'aide de techniques d'interprétabilité automatisées, et les supprime des paramètres du modèle. Les expériences sur Gemma 2 et Llama 3.1 pour divers concepts montrent que PISCES obtient des gains modestes en efficacité par rapport aux principales méthodes d'effacement, réduisant la précision sur le concept cible à seulement 7,7 %, tout en améliorant considérablement la spécificité de l'effacement (jusqu'à 31 %) et la robustesse (jusqu'à 38 %). Globalement, ces résultats démontrent que l'édition in-paramètre basée sur les caractéristiques permet une approche plus précise et fiable pour supprimer les connaissances conceptuelles dans les modèles de langage.
English
Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.

Summary

AI-Generated Summary

PDF12May 29, 2025