Vecteurs de Persona : Surveillance et Contrôle des Traits de Caractère dans les Modèles de Langage
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
July 29, 2025
papers.authors: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
cs.AI
papers.abstract
Les grands modèles de langage interagissent avec les utilisateurs à travers une personnalité simulée d'« Assistant ». Bien que l'Assistant soit généralement entraîné pour être utile, inoffensif et honnête, il s'écarte parfois de ces idéaux. Dans cet article, nous identifions des directions dans l'espace d'activation du modèle — des vecteurs de personnalité — qui sous-tendent plusieurs traits, tels que la malveillance, la flagornerie et la propension à halluciner. Nous confirmons que ces vecteurs peuvent être utilisés pour surveiller les fluctuations de la personnalité de l'Assistant lors de son déploiement. Nous appliquons ensuite ces vecteurs de personnalité pour prédire et contrôler les changements de personnalité qui surviennent pendant l'entraînement. Nous constatons que les modifications intentionnelles et non intentionnelles de la personnalité après un ajustement fin sont fortement corrélées aux déplacements le long des vecteurs de personnalité pertinents. Ces déplacements peuvent être atténués par une intervention post-hoc ou évités dès le départ grâce à une nouvelle méthode de pilotage préventif. De plus, les vecteurs de personnalité peuvent être utilisés pour identifier les données d'entraînement susceptibles de provoquer des changements de personnalité indésirables, tant au niveau de l'ensemble de données qu'au niveau des échantillons individuels. Notre méthode d'extraction des vecteurs de personnalité est automatisée et peut être appliquée à tout trait de personnalité d'intérêt, à partir d'une simple description en langage naturel.
English
Large language models interact with users through a simulated 'Assistant'
persona. While the Assistant is typically trained to be helpful, harmless, and
honest, it sometimes deviates from these ideals. In this paper, we identify
directions in the model's activation space-persona vectors-underlying several
traits, such as evil, sycophancy, and propensity to hallucinate. We confirm
that these vectors can be used to monitor fluctuations in the Assistant's
personality at deployment time. We then apply persona vectors to predict and
control personality shifts that occur during training. We find that both
intended and unintended personality changes after finetuning are strongly
correlated with shifts along the relevant persona vectors. These shifts can be
mitigated through post-hoc intervention, or avoided in the first place with a
new preventative steering method. Moreover, persona vectors can be used to flag
training data that will produce undesirable personality changes, both at the
dataset level and the individual sample level. Our method for extracting
persona vectors is automated and can be applied to any personality trait of
interest, given only a natural-language description.