ChatPaper.aiChatPaper

언어 모델의 선형 표현은 대화가 진행됨에 따라 극적으로 변화할 수 있습니다.

Linear representations in language models can change dramatically over a conversation

January 28, 2026
저자: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
cs.AI

초록

언어 모델의 표현에는 종종 높은 수준의 개념에 해당하는 선형 방향이 포함됩니다. 본 연구에서는 이러한 표현의 역학, 즉 (시뮬레이션된) 대화 맥락 내에서 이러한 차원을 따라 표현이 어떻게 진화하는지를 탐구합니다. 우리는 선형 표현이 대화 중에 극적으로 변화할 수 있음을 발견했습니다. 예를 들어, 대화 초반에는 사실로 표현된 정보가 대화 말미에는 비사실적으로 표현되거나 그 반대의 경우도 발생합니다. 이러한 변화는 내용에 의존적입니다. 대화와 관련된 정보의 표현은 변화할 수 있지만, 일반적인 정보는 대체로 보존됩니다. 이러한 변화는 사실성과 더 피상적인 응답 패턴을 분리하는 차원에서도 강건하게 나타나며, 다양한 모델 패밀리와 모델 계층에 걸쳐 발생합니다. 이러한 표현 변화는 온-정책 대화를 필요로 하지 않습니다. 완전히 다른 모델이 작성한 대화 스크립트를 재생하는 것만으로도 유사한 변화를 일으킬 수 있습니다. 그러나 단순히 명시적으로 SF 이야기라는 틀이 주어진 맥락을 제공하는 것에서는 적응 효과가 훨씬 약합니다. 또한, 표현적 방향을 따라 조정하는 것이 대화의 다른 시점에서 극적으로 다른 효과를 낼 수 있음을 보여줍니다. 이러한 결과는 모델이 대화에 의해 유발된 특정 역할을 수행함에 따라 표현이 진화할 수 있다는 아이디어와 일관됩니다. 우리의 발견은 해석 가능성과 조정에 도전 과제를 제시할 수 있습니다. 특히, 특징이나 방향에 대한 정적 해석을 사용하거나 특정 특징 범위가 일관되게 특정 실제 값에 해당한다고 가정하는 프로브를 사용하는 것은 오해의 소지가 있을 수 있음을 시사합니다. 그러나 이러한 유형의 표현 역학은 모델이 맥락에 적응하는 방식을 이해하기 위한 새로운 흥미로운 연구 방향을 제시하기도 합니다.
English
Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
PDF212February 8, 2026