Piloter Llama 2 via l'Addition d'Activation Contrastive
Steering Llama 2 via Contrastive Activation Addition
December 9, 2023
Auteurs: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner
cs.AI
Résumé
Nous présentons la méthode Contrastive Activation Addition (CAA), une approche innovante pour orienter les modèles de langage en modifiant les activations lors de leurs passes avant. CAA calcule des « vecteurs d'orientation » en faisant la moyenne des différences d'activations dans le flux résiduel entre des paires d'exemples positifs et négatifs d'un comportement spécifique, comme des réponses factuelles versus hallucinatoires. Pendant l'inférence, ces vecteurs d'orientation sont ajoutés à toutes les positions de tokens après l'invite de l'utilisateur, avec un coefficient positif ou négatif, permettant un contrôle précis du degré du comportement ciblé. Nous évaluons l'efficacité de CAA sur Llama 2 Chat en utilisant à la fois des ensembles de données de questions comportementales à choix multiples et des tâches de génération ouverte. Nous démontrons que CAA modifie significativement le comportement du modèle, surpasse les méthodes traditionnelles comme le fine-tuning et le prompting en few-shot, et réduit minimalement les capacités du modèle. De plus, en employant diverses méthodes d'interprétation de l'espace d'activation, nous obtenons des insights plus profonds sur les mécanismes de CAA. CAA oriente avec précision les sorties du modèle et éclaire également la manière dont les concepts de haut niveau sont représentés dans les grands modèles de langage (LLMs).
English
We introduce Contrastive Activation Addition (CAA), an innovative method for
steering language models by modifying activations during their forward passes.
CAA computes ``steering vectors'' by averaging the difference in residual
stream activations between pairs of positive and negative examples of a
particular behavior such as factual versus hallucinatory responses. During
inference, these steering vectors are added at all token positions after the
user's prompt with either a positive or negative coefficient, allowing precise
control over the degree of the targeted behavior. We evaluate CAA's
effectiveness on Llama 2 Chat using both multiple-choice behavioral question
datasets and open-ended generation tasks. We demonstrate that CAA significantly
alters model behavior, outperforms traditional methods like finetuning and
few-shot prompting, and minimally reduces capabilities. Moreover, by employing
various activation space interpretation methods, we gain deeper insights into
CAA's mechanisms. CAA both accurately steers model outputs and also sheds light
on how high-level concepts are represented in Large Language Models (LLMs).