ChatPaper.aiChatPaper

Piloter Llama 2 via l'Addition d'Activation Contrastive

Steering Llama 2 via Contrastive Activation Addition

December 9, 2023
Auteurs: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner
cs.AI

Résumé

Nous présentons la méthode Contrastive Activation Addition (CAA), une approche innovante pour orienter les modèles de langage en modifiant les activations lors de leurs passes avant. CAA calcule des « vecteurs d'orientation » en faisant la moyenne des différences d'activations dans le flux résiduel entre des paires d'exemples positifs et négatifs d'un comportement spécifique, comme des réponses factuelles versus hallucinatoires. Pendant l'inférence, ces vecteurs d'orientation sont ajoutés à toutes les positions de tokens après l'invite de l'utilisateur, avec un coefficient positif ou négatif, permettant un contrôle précis du degré du comportement ciblé. Nous évaluons l'efficacité de CAA sur Llama 2 Chat en utilisant à la fois des ensembles de données de questions comportementales à choix multiples et des tâches de génération ouverte. Nous démontrons que CAA modifie significativement le comportement du modèle, surpasse les méthodes traditionnelles comme le fine-tuning et le prompting en few-shot, et réduit minimalement les capacités du modèle. De plus, en employant diverses méthodes d'interprétation de l'espace d'activation, nous obtenons des insights plus profonds sur les mécanismes de CAA. CAA oriente avec précision les sorties du modèle et éclaire également la manière dont les concepts de haut niveau sont représentés dans les grands modèles de langage (LLMs).
English
We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying activations during their forward passes. CAA computes ``steering vectors'' by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using both multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, outperforms traditional methods like finetuning and few-shot prompting, and minimally reduces capabilities. Moreover, by employing various activation space interpretation methods, we gain deeper insights into CAA's mechanisms. CAA both accurately steers model outputs and also sheds light on how high-level concepts are represented in Large Language Models (LLMs).
PDF151December 15, 2024