ChatPaper.aiChatPaper

言語モデルにおける線形表現は、会話の進行に伴って劇的に変化することがあります

Linear representations in language models can change dramatically over a conversation

January 28, 2026
著者: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
cs.AI

要旨

言語モデルの表現には、高水準の概念に対応する線形方向がしばしば存在する。本研究では、これらの表現の力学、すなわち(シミュレートされた)会話の文脈内でこれらの次元に沿って表現がどのように進化するかを検討する。線形表現は会話の中で劇的に変化し得ることを発見した。例えば、会話の冒頭で事実として表現されていた情報が、会話の終盤では非事実として表現される場合があり、その逆も起こり得る。これらの変化は内容に依存しており、会話に関連する情報の表現は変化する一方で、一般的な情報は概して保持される。これらの変化は、事実性をより表面的な応答パターンから分離する次元においても頑健であり、様々なモデルファミリーやモデルの層にわたって生じる。この表現変化はオンライン方策の会話を必要とせず、全く異なるモデルによって書かれた会話スクリプトを再生するだけでも同様の変化が生じ得る。しかし、明示的にSFストーリーとして枠組みを与えられた文脈を単に提示するだけでは、適応ははるかに弱い。また、表現方向に沿ったステアリングが、会話の異なる時点で劇的に異なる効果をもたらし得ることも示す。これらの結果は、会話によって示唆される特定の役割をモデルが演じることに応答して表現が進化するという考えと整合的である。我々の発見は、解釈可能性とステアリングに課題を提起する可能性がある。特に、特徴や方向の静的な解釈、または特定の特徴範囲が一貫して特定の真の値に対応することを仮定したプローブの使用は誤解を招き得ることを示唆する。しかし、この種の表現力学は、モデルが文脈に適応する方法を理解するための新たな研究方向性も指し示している。
English
Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
PDF81January 30, 2026