언어 모델에서 선형적 진실 인코딩의 출현
Emergence of Linear Truth Encodings in Language Models
October 17, 2025
저자: Shauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti
cs.AI
초록
최근 프로빙 연구에 따르면 대규모 언어 모델은 참과 거짓 문장을 구분하는 선형 부분공간을 나타내지만, 그 발생 메커니즘은 불분명합니다. 본 연구에서는 이러한 진실 부분공간을 종단간으로 재현하고 그 발생 경로를 구체적으로 보여주는 투명한 1층 트랜스포머 토이 모델을 소개합니다. 우리는 진실 인코딩이 발생할 수 있는 단순한 설정을 연구했는데, 이는 사실적 주장이 다른 사실적 주장과 함께 나타나는(그 반대의 경우도 마찬가지) 데이터 분포로, 모델이 향후 토큰에 대한 언어 모델 손실을 줄이기 위해 이러한 구분을 학습하도록 유도합니다. 우리는 사전 학습된 언어 모델 실험을 통해 이 패턴을 입증합니다. 마지막으로 토이 설정에서 두 단계 학습 역학을 관찰했습니다: 네트워크는 먼저 몇 단계 만에 개별 사실 연관 관계를 암기한 다음, 더 긴 시간에 걸쳐 참과 거짓을 선형적으로 구분하는 법을 학습하며, 이는 결국 언어 모델링 손실을 감소시킵니다. 종합적으로, 이러한 결과는 언어 모델에서 선형 진실 표현이 어떻게 그리고 왜 발생하는지에 대한 기계론적 실증과 경험적 동기를 제공합니다.
English
Recent probing studies reveal that large language models exhibit linear
subspaces that separate true from false statements, yet the mechanism behind
their emergence is unclear. We introduce a transparent, one-layer transformer
toy model that reproduces such truth subspaces end-to-end and exposes one
concrete route by which they can arise. We study one simple setting in which
truth encoding can emerge: a data distribution where factual statements
co-occur with other factual statements (and vice-versa), encouraging the model
to learn this distinction in order to lower the LM loss on future tokens. We
corroborate this pattern with experiments in pretrained language models.
Finally, in the toy setting we observe a two-phase learning dynamic: networks
first memorize individual factual associations in a few steps, then -- over a
longer horizon -- learn to linearly separate true from false, which in turn
lowers language-modeling loss. Together, these results provide both a
mechanistic demonstration and an empirical motivation for how and why linear
truth representations can emerge in language models.