ChatPaper.aiChatPaper

Las representaciones lineales en los modelos de lenguaje pueden cambiar drásticamente durante una conversación.

Linear representations in language models can change dramatically over a conversation

January 28, 2026
Autores: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
cs.AI

Resumen

Las representaciones de los modelos de lenguaje a menudo contienen direcciones lineales que corresponden a conceptos de alto nivel. Aquí, estudiamos la dinámica de estas representaciones: cómo evolucionan las representaciones a lo largo de estas dimensiones dentro del contexto de conversaciones (simuladas). Encontramos que las representaciones lineales pueden cambiar dramáticamente durante una conversación; por ejemplo, la información que se representa como factual al inicio de una conversación puede representarse como no factual al final, y viceversa. Estos cambios son dependientes del contenido; mientras que las representaciones de la información relevante para la conversación pueden cambiar, la información genérica generalmente se conserva. Estos cambios son robustos incluso para dimensiones que separan la factualidad de patrones de respuesta más superficiales, y ocurren en diferentes familias de modelos y capas del modelo. Estos cambios de representación no requieren conversaciones de política activa; incluso reproducir un guion de conversación escrito por un modelo completamente diferente puede producir cambios similares. Sin embargo, la adaptación es mucho más débil al simplemente tener una historia de ciencia ficción en el contexto que está enmarcada más explícitamente como tal. También mostramos que dirigir la representación a lo largo de una dirección puede tener efectos dramáticamente diferentes en distintos puntos de una conversación. Estos resultados son consistentes con la idea de que las representaciones pueden evolucionar en respuesta al modelo que desempeña un papel particular sugerido por una conversación. Nuestros hallazgos pueden plantear desafíos para la interpretabilidad y el direccionamiento —en particular, implican que puede ser engañoso utilizar interpretaciones estáticas de características o direcciones, o sondas que asumen que un rango particular de características corresponde consistentemente a un valor de verdad específico. Sin embargo, estos tipos de dinámicas representacionales también apuntan a nuevas y emocionantes direcciones de investigación para comprender cómo los modelos se adaptan al contexto.
English
Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
PDF81January 30, 2026