Точное стирание концепций в параметрах больших языковых моделей
Precise In-Parameter Concept Erasure in Large Language Models
May 28, 2025
Авторы: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
cs.AI
Аннотация
Крупные языковые модели (LLM) часто приобретают в процессе предварительного обучения знания, которые нежелательны для использования в последующих задачах, например, конфиденциальную информацию или защищённый авторским правом контент. Существующие подходы для удаления таких знаний основываются на тонкой настройке, обучении низкоранговых адаптеров или редактировании на уровне фактов, однако эти методы либо слишком грубы, либо поверхностны, либо неэффективны. В данной работе мы предлагаем PISCES (Precise In-parameter Suppression for Concept EraSure) — новый фреймворк для точного удаления целых концепций из параметров модели путём прямого редактирования направлений, кодирующих их в пространстве параметров. PISCES использует модель-разделитель для декомпозиции векторов MLP на интерпретируемые признаки, идентифицирует те из них, которые связаны с целевой концепцией, с помощью автоматизированных методов интерпретируемости, и удаляет их из параметров модели. Эксперименты на моделях Gemma 2 и Llama 3.1 для различных концепций показывают, что PISCES достигает умеренного улучшения эффективности по сравнению с ведущими методами удаления, снижая точность на целевой концепции до 7,7%, при этом значительно повышая специфичность удаления (до 31%) и устойчивость (до 38%). В целом, эти результаты демонстрируют, что редактирование параметров на основе признаков позволяет реализовать более точный и надёжный подход для удаления концептуальных знаний в языковых моделях.
English
Large language models (LLMs) often acquire knowledge during pretraining that
is undesirable in downstream deployments, e.g., sensitive information or
copyrighted content. Existing approaches for removing such knowledge rely on
fine-tuning, training low-rank adapters or fact-level editing, but these are
either too coarse, too shallow, or ineffective. In this work, we propose PISCES
(Precise In-parameter Suppression for Concept EraSure), a novel framework for
precisely erasing entire concepts from model parameters by directly editing
directions that encode them in parameter space. PISCES uses a disentangler
model to decompose MLP vectors into interpretable features, identifies those
associated with a target concept using automated interpretability techniques,
and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1
over various concepts show that PISCES achieves modest gains in efficacy over
leading erasure methods, reducing accuracy on the target concept to as low as
7.7%, while dramatically improving erasure specificity (by up to 31%) and
robustness (by up to 38%). Overall, these results demonstrate that
feature-based in-parameter editing enables a more precise and reliable approach
for removing conceptual knowledge in language models.Summary
AI-Generated Summary