ChatPaper.aiChatPaper

Vetores de Persona: Monitoramento e Controle de Traços de Personalidade em Modelos de Linguagem

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

July 29, 2025
Autores: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
cs.AI

Resumo

Grandes modelos de linguagem interagem com os usuários por meio de uma persona simulada de 'Assistente'. Embora o Assistente seja normalmente treinado para ser útil, inofensivo e honesto, ele às vezes se desvia desses ideais. Neste artigo, identificamos direções no espaço de ativação do modelo — vetores de persona — que subjazem a vários traços, como maldade, bajulação e propensão a alucinar. Confirmamos que esses vetores podem ser usados para monitorar flutuações na personalidade do Assistente durante a implantação. Em seguida, aplicamos vetores de persona para prever e controlar mudanças de personalidade que ocorrem durante o treinamento. Descobrimos que tanto as mudanças de personalidade intencionais quanto as não intencionais após o ajuste fino estão fortemente correlacionadas com deslocamentos ao longo dos vetores de persona relevantes. Esses deslocamentos podem ser mitigados por meio de intervenção pós-hoc ou evitados desde o início com um novo método de direcionamento preventivo. Além disso, os vetores de persona podem ser usados para sinalizar dados de treinamento que produzirão mudanças de personalidade indesejáveis, tanto no nível do conjunto de dados quanto no nível da amostra individual. Nosso método para extrair vetores de persona é automatizado e pode ser aplicado a qualquer traço de personalidade de interesse, dado apenas uma descrição em linguagem natural.
English
Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.
PDF294August 1, 2025