ChatPaper.aiChatPaper

Les représentations linéaires dans les modèles de langage peuvent évoluer considérablement au cours d'une conversation.

Linear representations in language models can change dramatically over a conversation

January 28, 2026
papers.authors: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
cs.AI

papers.abstract

Les représentations des modèles de langage contiennent souvent des directions linéaires correspondant à des concepts de haut niveau. Nous étudions ici la dynamique de ces représentations : comment elles évoluent le long de ces dimensions dans le contexte de conversations (simulées). Nous constatons que les représentations linéaires peuvent changer considérablement au cours d'une conversation ; par exemple, une information représentée comme factuelle au début peut être représentée comme non factuelle à la fin, et vice versa. Ces changements sont dépendants du contenu ; tandis que les représentations des informations pertinentes pour la conversation peuvent évoluer, les informations génériques sont généralement préservées. Ces modifications sont robustes, même pour des dimensions qui dissocient la factualité de motifs de réponse plus superficiels, et se produisent à travers différentes familles de modèles et différentes couches du modèle. Ces changements représentationnels ne nécessitent pas de conversations sur politique ; même la relecture d'un script de conversation écrit par un modèle entièrement différent peut produire des modifications similaires. Cependant, l'adaptation est beaucoup plus faible lorsque le contexte se limite simplement à une histoire de science-fiction explicitement présentée comme telle. Nous montrons également que piloter le modèle le long d'une direction représentationnelle peut avoir des effets radicalement différents à différents moments d'une conversation. Ces résultats sont compatibles avec l'idée que les représentations peuvent évoluer en réponse au modèle jouant un rôle particulier induit par une conversation. Nos résultats pourraient poser des défis pour l'interprétabilité et le pilotage – en particulier, ils impliquent qu'il pourrait être trompeur d'utiliser des interprétations statiques des caractéristiques ou des directions, ou des sondes qui supposent qu'une plage particulière de caractéristiques correspond systématiquement à une valeur de vérité terrain spécifique. Cependant, ce type de dynamique représentationnelle ouvre également de nouvelles pistes de recherche passionnantes pour comprendre comment les modèles s'adaptent au contexte.
English
Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
PDF81January 30, 2026