Llama 2 sturen via contrastieve activatietoevoeging
Steering Llama 2 via Contrastive Activation Addition
December 9, 2023
Auteurs: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner
cs.AI
Samenvatting
We introduceren Contrastive Activation Addition (CAA), een innovatieve methode voor het sturen van taalmodel(len) door activaties tijdens hun forward passes aan te passen. CAA berekent "stuurvectoren" door het gemiddelde te nemen van het verschil in activaties van de residual stream tussen paren van positieve en negatieve voorbeelden van een bepaald gedrag, zoals feitelijke versus hallucinerende reacties. Tijdens inferentie worden deze stuurvectoren op alle tokenposities toegevoegd na de prompt van de gebruiker, met een positieve of negatieve coëfficiënt, wat nauwkeurige controle over de mate van het beoogde gedrag mogelijk maakt. We evalueren de effectiviteit van CAA op Llama 2 Chat met behulp van zowel multiple-choice gedragsvraagdatasets als open-ended generatietaken. We tonen aan dat CAA het modelgedrag significant verandert, traditionele methoden zoals finetunen en few-shot prompting overtreft, en de capaciteiten minimaal reduceert. Bovendien krijgen we door het gebruik van verschillende interpretatiemethoden voor de activatieruimte dieper inzicht in de mechanismen van CAA. CAA stuurt niet alleen modeloutputs nauwkeurig, maar werpt ook licht op hoe hoogwaardige concepten worden gerepresenteerd in Large Language Models (LLM's).
English
We introduce Contrastive Activation Addition (CAA), an innovative method for
steering language models by modifying activations during their forward passes.
CAA computes ``steering vectors'' by averaging the difference in residual
stream activations between pairs of positive and negative examples of a
particular behavior such as factual versus hallucinatory responses. During
inference, these steering vectors are added at all token positions after the
user's prompt with either a positive or negative coefficient, allowing precise
control over the degree of the targeted behavior. We evaluate CAA's
effectiveness on Llama 2 Chat using both multiple-choice behavioral question
datasets and open-ended generation tasks. We demonstrate that CAA significantly
alters model behavior, outperforms traditional methods like finetuning and
few-shot prompting, and minimally reduces capabilities. Moreover, by employing
various activation space interpretation methods, we gain deeper insights into
CAA's mechanisms. CAA both accurately steers model outputs and also sheds light
on how high-level concepts are represented in Large Language Models (LLMs).