アシスタント軸:言語モデルのデフォルト人格の位置付けと安定化
The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
January 15, 2026
著者: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
cs.AI
要旨
大規模言語モデルは多様なペルソナを表現可能ですが、一般的には学習後調整によって形成された「支援アシスタント」という同一性をデフォルトとします。本研究では、様々なキャラクター類型に対応する活性化方向を抽出することで、モデルペルソナ空間の構造を調査します。複数の異なるモデルにおいて、このペルソナ空間の主要成分が「アシスタント軸」であることを発見しました。この軸は、モデルが標準的なアシスタントモードで動作する程度を捉えています。アシスタント方向への制御は、有益かつ無害な振る舞いを強化し、逆方向への制御はモデルが他の存在として自己認識する傾向を高めます。さらに、より極端な値で逆方向に制御すると、神秘的で演劇的な話し方が誘発されることが多いです。この軸は事前学習済みモデルにも存在し、主にコンサルタントやコーチなどの有益な人間類型を促進し、精神的な類型を抑制することがわかりました。アシスタント軸に沿った偏差を測定することで、モデルが典型的なペルソナに特徴的ではない有害または奇妙な行動を示す「ペルソナドリフト」現象を予測できます。ペルソナドリフトは、モデルのプロセスに関するメタ認証を要求する会話や、感情的に脆弱なユーザーが関与する会話によって引き起こされることが多いです。アシスタント軸に沿った特定領域に活性化を制限することで、こうしたシナリオや、敵対的ペルソナベースのジャイルブレークに対するモデル行動の安定化が可能であることを示します。我々の結果は、学習後調整がモデルをペルソナ空間の特定領域に向けて誘導するものの、緩やかな拘束しか与えていないことを示唆しており、モデルを一貫したペルソナに強固に固定する訓練・制御戦略の開発の必要性を動機付けます。
English
Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.