O Eixo do Assistente: Situando e Estabilizando a Persona Padrão dos Modelos de Linguagem

Resumo

Os grandes modelos de linguagem podem representar uma variedade de personas, mas normalmente assumem por padrão uma identidade de Assistente útil, cultivada durante o pós-treinamento. Investigamos a estrutura do espaço de personas do modelo extraindo direções de ativação correspondentes a diversos arquétipos de personagens. Em vários modelos diferentes, descobrimos que o componente principal desse espaço de personas é um "Eixo do Assistente", que captura até que ponto um modelo opera em seu modo padrão de Assistente. Direcionar-se para a direção do Assistente reforça comportamentos úteis e inofensivos; afastar-se dela aumenta a tendência do modelo de se identificar como outras entidades. Além disso, afastar-se com valores mais extremos frequentemente induz um estilo de fala místico e teatral. Verificamos que esse eixo também está presente em modelos pré-treinados, onde promove principalmente arquétipos humanos úteis, como consultores e coaches, e inibe os espirituais. Medir desvios ao longo do Eixo do Assistente prevê o "desvio de persona", um fenômeno em que os modelos escorregam para exibir comportamentos prejudiciais ou bizarros que não são característicos de sua persona típica. Descobrimos que o desvio de persona é frequentemente impulsionado por conversas que exigem metarreflexão sobre os processos do modelo ou que apresentam usuários emocionalmente vulneráveis. Mostramos que restringir as ativações a uma região fixa ao longo do Eixo do Assistente pode estabilizar o comportamento do modelo nesses cenários — e também diante de jailbreaks adversariais baseados em persona. Nossos resultados sugerem que o pós-treinamento direciona os modelos para uma região específica do espaço de personas, mas apenas os prende frouxamente a ela, motivando trabalhos sobre estratégias de treinamento e direcionamento que ancoram mais profundamente os modelos a uma persona coerente.

English

Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.

O Eixo do Assistente: Situando e Estabilizando a Persona Padrão dos Modelos de Linguagem

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

Resumo

Support