ChatPaper.aiChatPaper

Borrado Preciso de Conceptos en Parámetros de Modelos de Lenguaje a Gran Escala

Precise In-Parameter Concept Erasure in Large Language Models

May 28, 2025
Autores: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen adquirir conocimientos durante el preentrenamiento que son indeseables en implementaciones posteriores, como información sensible o contenido protegido por derechos de autor. Los enfoques existentes para eliminar dichos conocimientos se basan en ajustes finos, entrenamiento de adaptadores de bajo rango o edición a nivel de hechos, pero estos son demasiado generales, superficiales o ineficaces. En este trabajo, proponemos PISCES (Supresión Precisa en Parámetros para la Eliminación de Conceptos), un marco novedoso para borrar con precisión conceptos completos de los parámetros del modelo mediante la edición directa de las direcciones que los codifican en el espacio de parámetros. PISCES utiliza un modelo desentrelazador para descomponer los vectores MLP en características interpretables, identifica aquellas asociadas con un concepto objetivo mediante técnicas automatizadas de interpretabilidad y las elimina de los parámetros del modelo. Los experimentos realizados en Gemma 2 y Llama 3.1 sobre diversos conceptos muestran que PISCES logra mejoras modestas en eficacia en comparación con los principales métodos de eliminación, reduciendo la precisión en el concepto objetivo hasta un 7.7%, mientras mejora drásticamente la especificidad de la eliminación (hasta un 31%) y la robustez (hasta un 38%). En general, estos resultados demuestran que la edición en parámetros basada en características permite un enfoque más preciso y confiable para eliminar conocimientos conceptuales en modelos de lenguaje.
English
Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.

Summary

AI-Generated Summary

PDF12May 29, 2025