Векторы персонажей: мониторинг и управление чертами характера в языковых моделях
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
July 29, 2025
Авторы: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
cs.AI
Аннотация
Крупные языковые модели взаимодействуют с пользователями через симулированную личность «Ассистента». Хотя Ассистент обычно обучается быть полезным, безопасным и честным, иногда он отклоняется от этих идеалов. В данной работе мы определяем направления в пространстве активаций модели — векторы личности, — которые лежат в основе нескольких характеристик, таких как злонамеренность, угодливость и склонность к галлюцинациям. Мы подтверждаем, что эти векторы можно использовать для отслеживания колебаний личности Ассистента во время эксплуатации. Затем мы применяем векторы личности для прогнозирования и управления изменениями личности, которые происходят в процессе обучения. Мы обнаруживаем, что как запланированные, так и непреднамеренные изменения личности после дообучения сильно коррелируют с изменениями вдоль соответствующих векторов личности. Эти изменения можно смягчить с помощью постфактумного вмешательства или предотвратить с помощью нового превентивного метода управления. Более того, векторы личности можно использовать для выявления обучающих данных, которые приведут к нежелательным изменениям личности, как на уровне всего набора данных, так и на уровне отдельных примеров. Наш метод извлечения векторов личности автоматизирован и может быть применен к любой интересующей характеристике личности, заданной только в виде естественно-языкового описания.
English
Large language models interact with users through a simulated 'Assistant'
persona. While the Assistant is typically trained to be helpful, harmless, and
honest, it sometimes deviates from these ideals. In this paper, we identify
directions in the model's activation space-persona vectors-underlying several
traits, such as evil, sycophancy, and propensity to hallucinate. We confirm
that these vectors can be used to monitor fluctuations in the Assistant's
personality at deployment time. We then apply persona vectors to predict and
control personality shifts that occur during training. We find that both
intended and unintended personality changes after finetuning are strongly
correlated with shifts along the relevant persona vectors. These shifts can be
mitigated through post-hoc intervention, or avoided in the first place with a
new preventative steering method. Moreover, persona vectors can be used to flag
training data that will produce undesirable personality changes, both at the
dataset level and the individual sample level. Our method for extracting
persona vectors is automated and can be applied to any personality trait of
interest, given only a natural-language description.