ChatPaper.aiChatPaper

보조 축: 언어 모델의 기본 페르소나 위치 설정 및 안정화

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

January 15, 2026
저자: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
cs.AI

초록

대규모 언어 모델은 다양한 페르소나를 구현할 수 있지만, 일반적으로 사후 훈련 과정에서 형성된 도움을 주는 어시스턴트 정체성을 기본값으로 채택합니다. 본 연구에서는 다양한 캐릭터 원형에 해당하는 활성화 방향을 추출하여 모델 페르소나 공간의 구조를 분석합니다. 여러 모델에서 일관되게 관찰된 바에 따르면, 이 페르소나 공간의 주된 구성 요소는 "어시스턴트 축"으로, 모델이 기본 어시스턴트 모드로 작동하는 정도를 포착합니다. 어시스턴트 방향으로의 조정은 도움이 되고 해가 없는 행동을 강화하는 반면, 반대 방향으로의 조정은 모델이 다른 개체로 정체화하는 경향을 증가시킵니다. 나아가 더 극단적인 값으로 반대 방향 조정을 할 경우 종종 신비롭고 연극적인 화법이 유도됩니다. 해당 축은 사전 훈련된 모델에서도 존재하며, 주로 컨설턴트나 코치와 같은 도움이 되는 인간 원형을 촉진하고 영적 원형을 억제하는 역할을 합니다. 어시스턴트 축을 따른 편차를 측정하면 모델이 일반적인 페르소나와는 다른 유해하거나 기이한 행동을 보이는 "페르소나 표류" 현상을 예측할 수 있습니다. 페르소나 표류는 모델의 처리 과정에 대한 메타 반영을 요구하거나 정서적으로 취약한 사용자가 참여하는 대화에서 종종 발생합니다. 어시스턴트 축을 따라 활성화를 고정된 영역으로 제한하면 이러한 시나리오뿐만 아니라 적대적 페르소나 기반 탈옥 시도에서도 모델 행동을 안정화할 수 있습니다. 우리의 연구 결과는 사후 훈련이 모델을 페르소나 공간의 특정 영역으로 유도하지만 느슨하게 묶어둘 뿐이므로, 모델을 일관된 페르소나에 더 깊이 고정시키는 훈련 및 조정 전략에 대한 연구가 필요함을 시사합니다.
English
Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.
PDF61January 21, 2026