Le rappresentazioni lineari nei modelli linguistici possono cambiare drasticamente nel corso di una conversazione.

Abstract

Le rappresentazioni dei modelli linguistici contengono spesso direzioni lineari che corrispondono a concetti di alto livello. In questo studio, analizziamo la dinamica di queste rappresentazioni: come si evolvono lungo queste dimensioni all'interno del contesto di conversazioni (simulate). Scopriamo che le rappresentazioni lineari possono cambiare drasticamente durante una conversazione; ad esempio, informazioni rappresentate come fattuali all'inizio di un dialogo possono essere rappresentate come non fattuali alla fine, e viceversa. Questi cambiamenti sono dipendenti dal contenuto; mentre le rappresentazioni delle informazioni rilevanti per la conversazione possono mutare, le informazioni generiche sono generalmente preservate. Queste alterazioni sono robuste anche per dimensioni che separano la fattualità da pattern di risposta più superficiali, e si verificano in diverse famiglie di modelli e diversi strati del modello. Tali cambiamenti rappresentazionali non richiedono conversazioni on-policy; persino la riproduzione di un copione conversazionale scritto da un modello completamente diverso può produrre alterazioni simili. Tuttavia, l'adattamento è molto più debole quando nel contesto è presente semplicemente una storia di fantascienza esplicitamente identificata come tale. Dimostriamo inoltre che la guida lungo una direzione rappresentazionale può avere effetti drammaticamente diversi in diversi punti di una conversazione. Questi risultati sono coerenti con l'idea che le rappresentazioni possano evolversi in risposta al modello che interpreta un ruolo specifico suggerito dalla conversazione. Le nostre scoperte potrebbero porre sfide per l'interpretabilità e la guida dei modelli - in particolare, implicano che potrebbe essere fuorviante utilizzare interpretazioni statiche di feature o direzioni, o sonde che assumono che un particolare intervallo di feature corrisponda costantemente a un valore ground-truth specifico. Tuttavia, questi tipi di dinamiche rappresentazionali indicano anche nuove entusiasmanti direzioni di ricerca per comprendere come i modelli si adattano al contesto.

English

Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.

Le rappresentazioni lineari nei modelli linguistici possono cambiare drasticamente nel corso di una conversazione.

Linear representations in language models can change dramatically over a conversation

Abstract

Support