As representações lineares em modelos de linguagem podem mudar drasticamente ao longo de uma conversa.

Resumo

As representações de modelos de linguagem frequentemente contêm direções lineares que correspondem a conceitos de alto nível. Aqui, estudamos a dinâmica dessas representações: como as representações evoluem ao longo dessas dimensões no contexto de conversas (simuladas). Descobrimos que as representações lineares podem mudar drasticamente ao longo de uma conversa; por exemplo, informações que são representadas como factuais no início de uma conversa podem ser representadas como não factuais no final, e vice-versa. Essas mudanças são dependentes do conteúdo; enquanto as representações de informações relevantes para a conversa podem mudar, informações genéricas são geralmente preservadas. Essas mudanças são robustas mesmo para dimensões que separam a factualidade de padrões de resposta mais superficiais, e ocorrem em diferentes famílias de modelos e camadas do modelo. Essas mudanças de representação não requerem conversas de política própria; até mesmo a reprodução de um roteiro de conversa escrito por um modelo completamente diferente pode produzir mudanças semelhantes. No entanto, a adaptação é muito mais fraca a partir de simplesmente ter uma história de ficção científica no contexto que é enquadrada mais explicitamente como tal. Também mostramos que a direção ao longo de uma direção representacional pode ter efeitos drasticamente diferentes em diferentes pontos de uma conversa. Esses resultados são consistentes com a ideia de que as representações podem evoluir em resposta ao modelo desempenhando um papel específico que é sinalizado por uma conversa. Nossas descobertas podem representar desafios para a interpretabilidade e a direção – em particular, elas implicam que pode ser enganoso usar interpretações estáticas de características ou direções, ou sondas que assumem que uma determinada gama de características corresponde consistentemente a um valor de verdade específico. No entanto, esses tipos de dinâmica representacional também apontam para novas e empolgantes direções de pesquisa para entender como os modelos se adaptam ao contexto.

English

Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.

As representações lineares em modelos de linguagem podem mudar drasticamente ao longo de uma conversa.

Linear representations in language models can change dramatically over a conversation

Resumo

Support