Persona Vectoren: Het Monitoren en Beheersen van Karaktereigenschappen in Taalmodellen
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
July 29, 2025
Auteurs: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
cs.AI
Samenvatting
Grote taalmodellen interageren met gebruikers via een gesimuleerd 'Assistant'-personage. Hoewel de Assistant doorgaans is getraind om behulpzaam, onschadelijk en eerlijk te zijn, wijkt deze soms af van deze idealen. In dit artikel identificeren we richtingen in de activatieruimte van het model—personagevectoren—die ten grondslag liggen aan verschillende eigenschappen, zoals kwaadaardigheid, slaafs gedrag en de neiging tot hallucineren. We bevestigen dat deze vectoren kunnen worden gebruikt om fluctuaties in het personage van de Assistant tijdens de inzet te monitoren. Vervolgens passen we personagevectoren toe om persoonlijkheidsverschuivingen die tijdens de training optreden te voorspellen en te controleren. We ontdekken dat zowel beoogde als onbedoelde persoonlijkheidsveranderingen na finetuning sterk gecorreleerd zijn met verschuivingen langs de relevante personagevectoren. Deze verschuivingen kunnen worden gemitigeerd door post-hoc interventie, of in de eerste plaats worden voorkomen met een nieuwe preventieve stuurmethode. Bovendien kunnen personagevectoren worden gebruikt om trainingsdata te markeren die ongewenste persoonlijkheidsveranderingen zullen veroorzaken, zowel op datasetniveau als op het niveau van individuele voorbeelden. Onze methode voor het extraheren van personagevectoren is geautomatiseerd en kan worden toegepast op elke gewenste persoonlijkheidseigenschap, gegeven alleen een beschrijving in natuurlijke taal.
English
Large language models interact with users through a simulated 'Assistant'
persona. While the Assistant is typically trained to be helpful, harmless, and
honest, it sometimes deviates from these ideals. In this paper, we identify
directions in the model's activation space-persona vectors-underlying several
traits, such as evil, sycophancy, and propensity to hallucinate. We confirm
that these vectors can be used to monitor fluctuations in the Assistant's
personality at deployment time. We then apply persona vectors to predict and
control personality shifts that occur during training. We find that both
intended and unintended personality changes after finetuning are strongly
correlated with shifts along the relevant persona vectors. These shifts can be
mitigated through post-hoc intervention, or avoided in the first place with a
new preventative steering method. Moreover, persona vectors can be used to flag
training data that will produce undesirable personality changes, both at the
dataset level and the individual sample level. Our method for extracting
persona vectors is automated and can be applied to any personality trait of
interest, given only a natural-language description.