Modelo de Cirurgia: Modulando o Comportamento do LLM Através da Edição Simples de Parâmetros

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um grande potencial como assistentes generalistas, exibindo poderosas capacidades de compreensão de tarefas e resolução de problemas. Para implantar os LLMs como assistentes de IA, é crucial que esses modelos demonstrem traços comportamentais desejáveis, como não toxicidade e resistência contra tentativas de violação. Os métodos atuais para desintoxicação ou prevenção de violações geralmente envolvem o Ajuste Fino Supervisionado (SFT) ou Aprendizado por Reforço a partir do Feedback Humano (RLHF), que requerem o ajuste fino de bilhões de parâmetros por meio de descida de gradiente com um custo computacional substancial. Além disso, modelos modificados por SFT e RLHF podem se desviar dos modelos pré-treinados, potencialmente levando a uma degradação nas capacidades fundamentais dos LLMs. Neste artigo, observamos que, surpreendentemente, editar diretamente um pequeno subconjunto de parâmetros pode modular de forma eficaz comportamentos específicos dos LLMs, como desintoxicação e resistência a violações. Especificamente, para um comportamento que pretendemos evitar, empregamos um classificador linear, que denominamos de sonda de comportamento, para classificar rótulos de comportamento binários dentro do espaço de estado oculto do LLM. Usando essa sonda, introduzimos um algoritmo para identificar um subconjunto crítico de parâmetros do LLM que influenciam significativamente esse comportamento-alvo. Em seguida, editamos diretamente esses parâmetros selecionados deslocando-os em direção à sonda de comportamento. Tal método de edição direta de parâmetros requer apenas recursos computacionais de nível de inferência. Experimentos demonstram que na tarefa representativa de desintoxicação, nossa abordagem alcança reduções de até 90,0\% na toxicidade no conjunto de dados RealToxicityPrompts e 49,2\% no ToxiGen, mantendo as capacidades gerais do LLM em áreas como senso comum, resposta a perguntas e matemática. Nosso código está disponível em https://github.com/lucywang720/model-surgery.

English

Large Language Models (LLMs) have demonstrated great potential as generalist assistants, showcasing powerful task understanding and problem-solving capabilities. To deploy LLMs as AI assistants, it is crucial that these models exhibit desirable behavioral traits, such as non-toxicity and resilience against jailbreak attempts. Current methods for detoxification or preventing jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), which requires finetuning billions of parameters through gradient descent with substantial computation cost. Furthermore, models modified through SFT and RLHF may deviate from the pretrained models, potentially leading to a degradation in foundational LLM capabilities. In this paper, we observe that surprisingly, directly editing a small subset of parameters can effectively modulate specific behaviors of LLMs, such as detoxification and resistance to jailbreaking. Specifically, for a behavior that we aim to avoid, we employ a linear classifier, which we term the behavior probe, to classify binary behavior labels within the hidden state space of the LLM. Using this probe, we introduce an algorithm to identify a critical subset of LLM parameters that significantly influence this targeted behavior. Then we directly edit these selected parameters by shifting them towards the behavior probe. Such a direct parameter editing method necessitates only inference-level computational resources. Experiments demonstrate that in the representative detoxification task, our approach achieves reductions of up to 90.0\% in toxicity on the RealToxicityPrompts dataset and 49.2\% on ToxiGen, while maintaining the LLM's general capabilities in areas such as common sense, question answering, and mathematics. Our code is available at https://github.com/lucywang720/model-surgery.

Modelo de Cirurgia: Modulando o Comportamento do LLM Através da Edição Simples de Parâmetros

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Resumo

Support