Modelo de Cirurgia: Modulando o Comportamento do LLM Através da Edição Simples de Parâmetros
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing
July 11, 2024
Autores: Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um grande potencial como assistentes generalistas, exibindo poderosas capacidades de compreensão de tarefas e resolução de problemas. Para implantar os LLMs como assistentes de IA, é crucial que esses modelos demonstrem traços comportamentais desejáveis, como não toxicidade e resistência contra tentativas de violação. Os métodos atuais para desintoxicação ou prevenção de violações geralmente envolvem o Ajuste Fino Supervisionado (SFT) ou Aprendizado por Reforço a partir do Feedback Humano (RLHF), que requerem o ajuste fino de bilhões de parâmetros por meio de descida de gradiente com um custo computacional substancial. Além disso, modelos modificados por SFT e RLHF podem se desviar dos modelos pré-treinados, potencialmente levando a uma degradação nas capacidades fundamentais dos LLMs. Neste artigo, observamos que, surpreendentemente, editar diretamente um pequeno subconjunto de parâmetros pode modular de forma eficaz comportamentos específicos dos LLMs, como desintoxicação e resistência a violações. Especificamente, para um comportamento que pretendemos evitar, empregamos um classificador linear, que denominamos de sonda de comportamento, para classificar rótulos de comportamento binários dentro do espaço de estado oculto do LLM. Usando essa sonda, introduzimos um algoritmo para identificar um subconjunto crítico de parâmetros do LLM que influenciam significativamente esse comportamento-alvo. Em seguida, editamos diretamente esses parâmetros selecionados deslocando-os em direção à sonda de comportamento. Tal método de edição direta de parâmetros requer apenas recursos computacionais de nível de inferência. Experimentos demonstram que na tarefa representativa de desintoxicação, nossa abordagem alcança reduções de até 90,0\% na toxicidade no conjunto de dados RealToxicityPrompts e 49,2\% no ToxiGen, mantendo as capacidades gerais do LLM em áreas como senso comum, resposta a perguntas e matemática. Nosso código está disponível em https://github.com/lucywang720/model-surgery.
English
Large Language Models (LLMs) have demonstrated great potential as generalist
assistants, showcasing powerful task understanding and problem-solving
capabilities. To deploy LLMs as AI assistants, it is crucial that these models
exhibit desirable behavioral traits, such as non-toxicity and resilience
against jailbreak attempts. Current methods for detoxification or preventing
jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement
Learning from Human Feedback (RLHF), which requires finetuning billions of
parameters through gradient descent with substantial computation cost.
Furthermore, models modified through SFT and RLHF may deviate from the
pretrained models, potentially leading to a degradation in foundational LLM
capabilities. In this paper, we observe that surprisingly, directly editing a
small subset of parameters can effectively modulate specific behaviors of LLMs,
such as detoxification and resistance to jailbreaking. Specifically, for a
behavior that we aim to avoid, we employ a linear classifier, which we term the
behavior probe, to classify binary behavior labels within the hidden state
space of the LLM. Using this probe, we introduce an algorithm to identify a
critical subset of LLM parameters that significantly influence this targeted
behavior. Then we directly edit these selected parameters by shifting them
towards the behavior probe. Such a direct parameter editing method necessitates
only inference-level computational resources. Experiments demonstrate that in
the representative detoxification task, our approach achieves reductions of up
to 90.0\% in toxicity on the RealToxicityPrompts dataset and 49.2\% on ToxiGen,
while maintaining the LLM's general capabilities in areas such as common sense,
question answering, and mathematics. Our code is available at
https://github.com/lucywang720/model-surgery.