ChatPaper.aiChatPaper

Die Assistenten-Achse: Verortung und Stabilisierung der Standardpersona von Sprachmodellen

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

January 15, 2026
papers.authors: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
cs.AI

papers.abstract

Große Sprachmodelle können verschiedene Personas repräsentieren, nehmen jedoch typischerweise standardmäßig eine hilfsbereite Assistenten-Identität an, die während des Post-Trainings kultiviert wurde. Wir untersuchen die Struktur des Persona-Raums von Modellen, indem wir Aktivierungsrichtungen extrahieren, die verschiedenen Charakterarchetypen entsprechen. Über mehrere verschiedene Modelle hinweg stellen wir fest, dass die führende Komponente dieses Persona-Raums eine "Assistenten-Achse" ist, die erfasst, inwieweit ein Modell in seinem Standard-Assistentenmodus operiert. Eine Steuerung in Richtung der Assistenten-Richtung verstärkt hilfreiches und harmloses Verhalten; eine Abweichung davon erhöht die Tendenz des Modells, sich als andere Entitäten zu identifizieren. Darüber hinaus führt eine stärkere Abweichung oft zu einem mystischen, theatralischen Sprechstil. Wir stellen fest, dass diese Achse auch in vortrainierten Modellen vorhanden ist, wo sie primär hilfreiche menschliche Archetypen wie Berater und Coaches fördert und spirituelle hemmt. Die Messung von Abweichungen entlang der Assistenten-Achse sagt "Persona-Drift" voraus, ein Phänomen, bei dem Modelle in schädliche oder bizarre Verhaltensweisen abgleiten, die untypisch für ihre gewöhnliche Persona sind. Wir finden, dass Persona-Drift oft durch Gespräche verursacht wird, die Meta-Reflexion über die Modellprozesse erfordern oder emotional verletzliche Nutzer betreffen. Wir zeigen, dass die Beschränkung von Aktivierungen auf einen festen Bereich entlang der Assistenten-Achse das Modellverhalten in diesen Szenarien stabilisieren kann – und auch gegenüber adversarischen, persona-basierten Jailbreaks. Unsere Ergebnisse deuten darauf hin, dass Post-Training Modelle in eine bestimmte Region des Persona-Raums steuert, sie aber nur locker daran bindet, was Arbeiten zu Trainings- und Steuerungsstrategien motiviert, die Modelle tiefer in einer kohärenten Persona verankern.
English
Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.
PDF61January 21, 2026