ChatPaper.aiChatPaper

Lineare Repräsentationen in Sprachmodellen können sich im Laufe eines Gesprächs dramatisch verändern.

Linear representations in language models can change dramatically over a conversation

January 28, 2026
papers.authors: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
cs.AI

papers.abstract

Repräsentationen in Sprachmodellen enthalten oft lineare Richtungen, die hochrangigen Konzepten entsprechen. Hier untersuchen wir die Dynamik dieser Repräsentationen: wie sie sich entlang dieser Dimensionen im Kontext (simulierter) Gespräche entwickeln. Wir stellen fest, dass sich lineare Repräsentationen im Laufe eines Gesprächs dramatisch verändern können; beispielsweise kann Information, die zu Beginn eines Gesprächs als faktisch repräsentiert wird, am Ende als nicht-faktisch repräsentiert werden und umgekehrt. Diese Veränderungen sind inhaltsspezifisch; während Repräsentationen gesprächsrelevanter Information sich ändern können, bleibt generische Information generell erhalten. Diese Veränderungen sind robust, selbst für Dimensionen, die Faktizität von oberflächlicheren Antwortmustern entkoppeln, und treten über verschiedene Modellfamilien und Modellebenen hinweg auf. Diese Repräsentationsänderungen erfordern keine On-Policy-Gespräche; selbst das Abspielen eines Gesprächsskripts, das von einem völlig anderen Modell geschrieben wurde, kann ähnliche Veränderungen hervorrufen. Die Anpassung ist jedoch deutlich schwächer, wenn lediglich eine Science-Fiction-Geschichte im Kontext steht, die explizit als solche gekennzeichnet ist. Wir zeigen auch, dass das Steuern entlang einer Repräsentationsrichtung zu unterschiedlichen Zeitpunkten eines Gesprächs dramatisch unterschiedliche Effekte haben kann. Diese Ergebnisse stützen die Idee, dass sich Repräsentationen als Reaktion darauf entwickeln können, dass das Modell eine bestimmte Rolle einnimmt, die durch ein Gespräch vorgegeben wird. Unsere Erkenntnisse könnten Herausforderungen für Interpretierbarkeit und Steuerbarkeit darstellen – insbesondere implizieren sie, dass es irreführend sein könnte, statische Interpretationen von Merkmalen oder Richtungen zu verwenden oder Analyseverfahren, die davon ausgehen, dass ein bestimmter Wertebereich eines Merkmals konsistent einem bestimmten Grundwahrheitswert entspricht. Diese Art von Repräsentationsdynamik weist jedoch auch auf spannende neue Forschungsrichtungen hin, um zu verstehen, wie Modelle sich an Kontexte anpassen.
English
Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
PDF81January 30, 2026