Lineaire representaties in taalmodelen kunnen tijdens een gesprek drastisch veranderen.

Samenvatting

Taalmodelrepresentaties bevatten vaak lineaire richtingen die corresponderen met hoogwaardige concepten. Hier bestuderen we de dynamiek van deze representaties: hoe representaties evolueren langs deze dimensies binnen de context van (gesimuleerde) gesprekken. We ontdekken dat lineaire representaties drastisch kunnen veranderen tijdens een gesprek; bijvoorbeeld, informatie die aan het begin van een gesprek als feitelijk wordt gerepresenteerd, kan aan het eind als niet-feitelijk worden gerepresenteerd en vice versa. Deze veranderingen zijn inhoudsafhankelijk; terwijl representaties van gespreksrelevante informatie kunnen veranderen, blijft generieke informatie over het algemeen behouden. Deze veranderingen zijn robuust, zelfs voor dimensies die feitelijkheid ontwarren van meer oppervlakkige antwoordpatronen, en treden op bij verschillende modelfamilies en lagen van het model. Deze representatieveranderingen vereisen geen on-policy gesprekken; zelfs het afspelen van een gespreksscript geschreven door een volledig ander model kan vergelijkbare veranderingen produceren. Adaptatie is echter veel zwakker wanneer simpelweg een sciencefictionverhaal in de context wordt geplaatst dat explicieter als zodanig wordt gekaderd. We tonen ook aan dat sturing langs een representatierichting dramatisch verschillende effecten kan hebben op verschillende punten in een gesprek. Deze resultaten zijn consistent met het idee dat representaties kunnen evolueren als reactie op het model dat een bepaalde rol speelt die wordt gesuggereerd door een gesprek. Onze bevindingen kunnen uitdagingen vormen voor interpreteerbaarheid en sturing – in het bijzonder impliceren ze dat het misleidend kan zijn om statische interpretaties van kenmerken of richtingen te gebruiken, of probes die veronderstellen dat een bepaald bereik van kenmerken consistent overeenkomt met een bepaalde grondwaarheid. Dit soort representatiedynamiek wijst echter ook op spannende nieuwe onderzoeksrichtingen voor het begrijpen van hoe modellen zich aanpassen aan context.

English

Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.

Lineaire representaties in taalmodelen kunnen tijdens een gesprek drastisch veranderen.

Linear representations in language models can change dramatically over a conversation

Samenvatting

Support