ChatPaper.aiChatPaper

Modellchirurgie: Modulation des Verhaltens von LLM durch einfache Parameterbearbeitung

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

July 11, 2024
Autoren: Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben ein großes Potenzial als Generalisten-Assistenten gezeigt, die leistungsstarke Aufgabenverständnis- und Problemlösungsfähigkeiten präsentieren. Um LLMs als KI-Assistenten einzusetzen, ist es entscheidend, dass diese Modelle wünschenswerte Verhaltensmerkmale aufweisen, wie Nicht-Toxizität und Widerstandsfähigkeit gegen Jailbreak-Versuche. Aktuelle Methoden zur Entgiftung oder Verhinderung von Jailbreaking beinhalten in der Regel Überwachtes Feintuning (SFT) oder Verstärkendes Lernen aus menschlichem Feedback (RLHF), was das Feintuning von Milliarden von Parametern durch Gradientenabstieg mit erheblichen Rechenkosten erfordert. Darüber hinaus können Modelle, die durch SFT und RLHF modifiziert wurden, von den vorab trainierten Modellen abweichen und möglicherweise zu einer Degradierung der grundlegenden LLM-Fähigkeiten führen. In diesem Papier stellen wir fest, dass es überraschenderweise möglich ist, durch direktes Bearbeiten einer kleinen Teilmenge von Parametern spezifische Verhaltensweisen von LLMs effektiv zu modulieren, wie Entgiftung und Widerstand gegen Jailbreaking. Konkret verwenden wir für ein zu vermeidendes Verhalten einen linearen Klassifizierer, den wir als Verhaltenssonde bezeichnen, um binäre Verhaltensetiketten im verborgenen Zustandsraum des LLM zu klassifizieren. Unter Verwendung dieser Sonde führen wir einen Algorithmus ein, um eine kritische Teilmenge von LLM-Parametern zu identifizieren, die dieses gezielte Verhalten signifikant beeinflussen. Anschließend bearbeiten wir diese ausgewählten Parameter direkt, indem wir sie in Richtung der Verhaltenssonde verschieben. Ein solcher direkter Parameterbearbeitungsansatz erfordert nur Inferenz-Ebene Rechenressourcen. Experimente zeigen, dass unser Ansatz bei der repräsentativen Entgiftungsaufgabe Reduzierungen von bis zu 90,0\% in der Toxizität im RealToxicityPrompts-Datensatz und 49,2\% in ToxiGen erreicht, während die allgemeinen Fähigkeiten des LLM in Bereichen wie gesunder Menschenverstand, Fragebeantwortung und Mathematik erhalten bleiben. Unser Code ist verfügbar unter https://github.com/lucywang720/model-surgery.
English
Large Language Models (LLMs) have demonstrated great potential as generalist assistants, showcasing powerful task understanding and problem-solving capabilities. To deploy LLMs as AI assistants, it is crucial that these models exhibit desirable behavioral traits, such as non-toxicity and resilience against jailbreak attempts. Current methods for detoxification or preventing jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), which requires finetuning billions of parameters through gradient descent with substantial computation cost. Furthermore, models modified through SFT and RLHF may deviate from the pretrained models, potentially leading to a degradation in foundational LLM capabilities. In this paper, we observe that surprisingly, directly editing a small subset of parameters can effectively modulate specific behaviors of LLMs, such as detoxification and resistance to jailbreaking. Specifically, for a behavior that we aim to avoid, we employ a linear classifier, which we term the behavior probe, to classify binary behavior labels within the hidden state space of the LLM. Using this probe, we introduce an algorithm to identify a critical subset of LLM parameters that significantly influence this targeted behavior. Then we directly edit these selected parameters by shifting them towards the behavior probe. Such a direct parameter editing method necessitates only inference-level computational resources. Experiments demonstrate that in the representative detoxification task, our approach achieves reductions of up to 90.0\% in toxicity on the RealToxicityPrompts dataset and 49.2\% on ToxiGen, while maintaining the LLM's general capabilities in areas such as common sense, question answering, and mathematics. Our code is available at https://github.com/lucywang720/model-surgery.

Summary

AI-Generated Summary

PDF214November 28, 2024