Eliminação Precisa de Conceitos em Parâmetros de Grandes Modelos de Linguagem
Precise In-Parameter Concept Erasure in Large Language Models
May 28, 2025
Autores: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) frequentemente adquirem conhecimento durante o pré-treinamento que é indesejável em implantações subsequentes, como informações sensíveis ou conteúdo protegido por direitos autorais. As abordagens existentes para remover esse conhecimento dependem de ajuste fino, treinamento de adaptadores de baixa classificação ou edição em nível de fatos, mas essas são ou muito grosseiras, muito superficiais ou ineficazes. Neste trabalho, propomos o PISCES (Supressão Precisa no Parâmetro para Apagamento de Conceitos), uma nova estrutura para apagar precisamente conceitos inteiros dos parâmetros do modelo, editando diretamente as direções que os codificam no espaço de parâmetros. O PISCES utiliza um modelo desentrelaçador para decompor vetores MLP em características interpretáveis, identifica aquelas associadas a um conceito alvo usando técnicas automatizadas de interpretabilidade e as remove dos parâmetros do modelo. Experimentos com o Gemma 2 e o Llama 3.1 em vários conceitos mostram que o PISCES alcança ganhos modestos em eficácia sobre os principais métodos de apagamento, reduzindo a precisão no conceito alvo para até 7,7%, enquanto melhora drasticamente a especificidade do apagamento (em até 31%) e a robustez (em até 38%). No geral, esses resultados demonstram que a edição baseada em características no parâmetro permite uma abordagem mais precisa e confiável para remover conhecimento conceitual em modelos de linguagem.
English
Large language models (LLMs) often acquire knowledge during pretraining that
is undesirable in downstream deployments, e.g., sensitive information or
copyrighted content. Existing approaches for removing such knowledge rely on
fine-tuning, training low-rank adapters or fact-level editing, but these are
either too coarse, too shallow, or ineffective. In this work, we propose PISCES
(Precise In-parameter Suppression for Concept EraSure), a novel framework for
precisely erasing entire concepts from model parameters by directly editing
directions that encode them in parameter space. PISCES uses a disentangler
model to decompose MLP vectors into interpretable features, identifies those
associated with a target concept using automated interpretability techniques,
and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1
over various concepts show that PISCES achieves modest gains in efficacy over
leading erasure methods, reducing accuracy on the target concept to as low as
7.7%, while dramatically improving erasure specificity (by up to 31%) and
robustness (by up to 38%). Overall, these results demonstrate that
feature-based in-parameter editing enables a more precise and reliable approach
for removing conceptual knowledge in language models.