Линейные представления в языковых моделях могут кардинально меняться в ходе диалога.
Linear representations in language models can change dramatically over a conversation
January 28, 2026
Авторы: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
cs.AI
Аннотация
Векторные представления языковых моделей часто содержат линейные направления, соответствующие концепциям высокого уровня. В данной работе мы исследуем динамику этих представлений: как они эволюционируют вдоль данных направлений в контексте (смоделированных) диалогов. Мы обнаруживаем, что линейные представления могут кардинально меняться в ходе диалога; например, информация, представленная как фактическая в начале разговора, может интерпретироваться как не-фактическая в его конце, и наоборот. Эти изменения зависят от содержания: хотя представления релевантной для диалога информации могут меняться, общая информация обычно сохраняется. Данные изменения устойчивы даже для направлений, отделяющих фактичность от более поверхностных паттернов ответов, и наблюдаются в различных семействах моделей и на разных слоях модели. Для изменения представлений не требуются диалоги, сгенерированные самой моделью; даже воспроизведение сценария диалога, написанного совершенно другой моделью, может вызывать схожие изменения. Однако адаптация значительно слабее при простом наличии в контексте научно-фантастического рассказа, явно обозначенного как таковой. Мы также показываем, что управление вдоль репрезентационного направления может иметь радикально разные эффекты в различные моменты диалога. Эти результаты согласуются с идеей, что представления могут эволюционировать в ответ на исполнение моделью определенной роли, заданной диалогом. Наши выводы могут создавать проблемы для интерпретируемости и управления — в частности, они подразумевают, что использование статических интерпретаций признаков или направлений, либо проб, предполагающих постоянное соответствие определенного диапазона признаков конкретному истинному значению, может вводить в заблуждение. Однако такая репрезентационная динамика также указывает на новые перспективные направления исследований для понимания того, как модели адаптируются к контексту.
English
Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.