Хирургическая модель: модуляция поведения LLM путем простого редактирования параметров
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing
July 11, 2024
Авторы: Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали большой потенциал как универсальные помощники, показывая мощные навыки понимания задач и решения проблем. Для использования LLM в качестве искусственных интеллектуальных помощников крайне важно, чтобы эти модели обладали желательными поведенческими характеристиками, такими как нетоксичность и устойчивость к попыткам взлома. Текущие методы детоксикации или предотвращения взлома обычно включают в себя Надзорное Тонкое Настройка (SFT) или Обучение с Подкреплением от Обратной Связи Человека (RLHF), что требует настройки миллиардов параметров с помощью градиентного спуска с существенными вычислительными затратами. Более того, модели, измененные через SFT и RLHF, могут отклоняться от предварительно обученных моделей, что потенциально может привести к ухудшению основных способностей LLM. В данной статье мы наблюдаем, что удивительным образом прямое редактирование небольшого подмножества параметров может эффективно модулировать определенные поведенческие характеристики LLM, такие как детоксикация и устойчивость к взлому. Конкретно, для поведения, которое мы стремимся избежать, мы используем линейный классификатор, который мы называем зондом поведения, для классификации двоичных меток поведения в скрытом пространстве состояний LLM. Используя этот зонд, мы представляем алгоритм для определения критического подмножества параметров LLM, которые значительно влияют на это целевое поведение. Затем мы прямо редактируем эти выбранные параметры, сдвигая их в сторону зонда поведения. Такой метод прямого редактирования параметров требует только вычислительных ресурсов на уровне вывода. Эксперименты показывают, что в представительной задаче детоксикации наш подход достигает снижения до 90,0\% токсичности на наборе данных RealToxicityPrompts и 49,2\% на ToxiGen, сохраняя при этом общие способности LLM в областях, таких как здравый смысл, ответы на вопросы и математика. Наш код доступен по адресу https://github.com/lucywang720/model-surgery.
English
Large Language Models (LLMs) have demonstrated great potential as generalist
assistants, showcasing powerful task understanding and problem-solving
capabilities. To deploy LLMs as AI assistants, it is crucial that these models
exhibit desirable behavioral traits, such as non-toxicity and resilience
against jailbreak attempts. Current methods for detoxification or preventing
jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement
Learning from Human Feedback (RLHF), which requires finetuning billions of
parameters through gradient descent with substantial computation cost.
Furthermore, models modified through SFT and RLHF may deviate from the
pretrained models, potentially leading to a degradation in foundational LLM
capabilities. In this paper, we observe that surprisingly, directly editing a
small subset of parameters can effectively modulate specific behaviors of LLMs,
such as detoxification and resistance to jailbreaking. Specifically, for a
behavior that we aim to avoid, we employ a linear classifier, which we term the
behavior probe, to classify binary behavior labels within the hidden state
space of the LLM. Using this probe, we introduce an algorithm to identify a
critical subset of LLM parameters that significantly influence this targeted
behavior. Then we directly edit these selected parameters by shifting them
towards the behavior probe. Such a direct parameter editing method necessitates
only inference-level computational resources. Experiments demonstrate that in
the representative detoxification task, our approach achieves reductions of up
to 90.0\% in toxicity on the RealToxicityPrompts dataset and 49.2\% on ToxiGen,
while maintaining the LLM's general capabilities in areas such as common sense,
question answering, and mathematics. Our code is available at
https://github.com/lucywang720/model-surgery.Summary
AI-Generated Summary