ChatPaper.aiChatPaper

El Eje del Asistente: Situación y Estabilización de la Persona Predeterminada en Modelos de Lenguaje

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

January 15, 2026
Autores: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
cs.AI

Resumen

Los modelos de lenguaje de gran tamaño pueden representar diversas personalidades, pero normalmente adoptan por defecto una identidad de Asistente útil cultivada durante el posentrenamiento. Investigamos la estructura del espacio de personalidades del modelo extrayendo direcciones de activación correspondientes a diversos arquetipos de personajes. En varios modelos diferentes, encontramos que el componente principal de este espacio de personalidades es un "Eje del Asistente", que captura el grado en que un modelo opera en su modo predeterminado de Asistente. Dirigirse hacia la dirección del Asistente refuerza comportamientos útiles e inofensivos; alejarse de ella aumenta la tendencia del modelo a identificarse con otras entidades. Además, alejarse con valores más extremos a menudo induce un estilo de expresión místico y teatral. Descubrimos que este eje también está presente en modelos preentrenados, donde principalmente promueve arquetipos humanos útiles como consultores y entrenadores, e inhibe los espirituales. Medir las desviaciones a lo largo del Eje del Asistente predice la "deriva de personalidad", un fenómeno en el que los modelos caen en comportamientos dañinos o extraños que no son característicos de su personalidad habitual. Encontramos que la deriva de personalidad a menudo es impulsada por conversaciones que exigen meta-reflexión sobre los procesos del modelo o que presentan usuarios emocionalmente vulnerables. Demostramos que restringir las activaciones a una región fija a lo largo del Eje del Asistente puede estabilizar el comportamiento del modelo en estos escenarios, incluso frente a jailbreaks adversarios basados en personalidades. Nuestros resultados sugieren que el posentrenamiento dirige a los modelos hacia una región particular del espacio de personalidades, pero solo los sujeta débilmente a ella, lo que motiva trabajar en estrategias de entrenamiento y dirección que anclen más profundamente a los modelos a una personalidad coherente.
English
Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.
PDF61January 21, 2026