ChatPaper.aiChatPaper

L'axe assistant : situer et stabiliser le persona par défaut des modèles de langage

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

January 15, 2026
papers.authors: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
cs.AI

papers.abstract

Les grands modèles de langage peuvent représenter diverses personnalités mais adoptent généralement par défaut une identité d'Assistant utile cultivée pendant l'après-entraînement. Nous étudions la structure de l'espace des personnalités des modèles en extrayant des directions d'activation correspondant à divers archétypes de personnages. Sur plusieurs modèles différents, nous constatons que la composante principale de cet espace de personnalités est un "Axe Assistant", qui capture la mesure dans laquelle un modèle fonctionne dans son mode Assistant par défaut. L'orientation vers la direction de l'Assistant renforce les comportements utiles et inoffensifs ; s'en éloigner augmente la tendance du modèle à s'identifier à d'autres entités. De plus, s'éloigner avec des valeurs plus extrêmes induit souvent un style d'expression mystique et théâtral. Nous constatons que cet axe est également présent dans les modèles pré-entraînés, où il favorise principalement des archétypes humains utiles comme les consultants et les coachs, et inhibe les archétypes spirituels. Mesurer les déviations le long de l'Axe Assistant permet de prédire la "dérive de personnalité", un phénomène où les modèles glissent vers des comportements nuisibles ou bizarres qui ne sont pas caractéristiques de leur personnalité typique. Nous constatons que la dérive de personnalité est souvent motivée par des conversations exigeant une méta-réflexion sur les processus du modèle ou mettant en scène des utilisateurs émotionnellement vulnérables. Nous montrons que restreindre les activations à une région fixe le long de l'Axe Assistant peut stabiliser le comportement du modèle dans ces scénarios - et également face aux jailbreaks adversariaux basés sur les personnalités. Nos résultats suggèrent que l'après-entraînement oriente les modèles vers une région particulière de l'espace des personnalités mais ne les y attache que faiblement, ce qui motive des travaux sur les stratégies d'entraînement et de pilotage qui ancrent plus profondément les modèles à une personnalité cohérente.
English
Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.
PDF61January 21, 2026