ChatPaper.aiChatPaper

Persona-Vektoren: Überwachung und Steuerung von Charaktereigenschaften in Sprachmodellen

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

July 29, 2025
papers.authors: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
cs.AI

papers.abstract

Große Sprachmodelle interagieren mit Nutzern über eine simulierte „Assistenten“-Persona. Obwohl der Assistent typischerweise darauf trainiert ist, hilfreich, harmlos und ehrlich zu sein, weicht er manchmal von diesen Idealen ab. In diesem Artikel identifizieren wir Richtungen im Aktivierungsraum des Modells – sogenannte Persona-Vektoren –, die mehreren Eigenschaften zugrunde liegen, wie Boshaftigkeit, Speichelleckerei und die Neigung zu Halluzinationen. Wir bestätigen, dass diese Vektoren genutzt werden können, um Schwankungen in der Persönlichkeit des Assistenten während des Einsatzes zu überwachen. Anschließend wenden wir Persona-Vektoren an, um Persönlichkeitsverschiebungen vorherzusagen und zu steuern, die während des Trainings auftreten. Wir stellen fest, dass sowohl beabsichtigte als auch unbeabsichtigte Persönlichkeitsveränderungen nach dem Feinabstimmen stark mit Verschiebungen entlang der relevanten Persona-Vektoren korrelieren. Diese Verschiebungen können durch nachträgliche Eingriffe gemildert oder von vornherein durch eine neue präventive Steuerungsmethode vermieden werden. Darüber hinaus können Persona-Vektoren genutzt werden, um Trainingsdaten zu kennzeichnen, die unerwünschte Persönlichkeitsveränderungen hervorrufen, sowohl auf der Ebene des gesamten Datensatzes als auch auf der Ebene einzelner Beispiele. Unsere Methode zur Extraktion von Persona-Vektoren ist automatisiert und kann auf jede gewünschte Persönlichkeitseigenschaft angewendet werden, wobei lediglich eine Beschreibung in natürlicher Sprache erforderlich ist.
English
Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.
PDF93August 1, 2025