Het ontstaan van lineaire waarheidsencoderingen in taalmodel(len)
Emergence of Linear Truth Encodings in Language Models
October 17, 2025
Auteurs: Shauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti
cs.AI
Samenvatting
Recente verkennende studies tonen aan dat grote taalmodellen lineaire deelruimtes vertonen die ware van onware uitspraken scheiden, maar het mechanisme achter hun ontstaan is onduidelijk. Wij introduceren een transparant, éénlaags transformer-speelgoedmodel dat dergelijke waarheidsdeelruimtes end-to-end reproduceert en een concrete route blootlegt waarop ze kunnen ontstaan. Wij bestuderen een eenvoudige setting waarin waarheidscodering kan opkomen: een gegevensverdeling waarbij feitelijke uitspraken samengaan met andere feitelijke uitspraken (en vice versa), wat het model aanmoedigt om dit onderscheid te leren om het LM-verlies op toekomstige tokens te verlagen. Wij bevestigen dit patroon met experimenten in vooraf getrainde taalmodellen. Tenslotte observeren we in de speelgoedsetting een tweefasig leerproces: netwerken memoriseren eerst individuele feitelijke associaties in enkele stappen, om vervolgens – over een langere periode – te leren om ware van onware uitspraken lineair te scheiden, wat op zijn beurt het taalmodelleringsverlies verlaagt. Samen bieden deze resultaten zowel een mechanistische demonstratie als een empirische motivatie voor hoe en waarom lineaire waarheidsrepresentaties kunnen ontstaan in taalmodellen.
English
Recent probing studies reveal that large language models exhibit linear
subspaces that separate true from false statements, yet the mechanism behind
their emergence is unclear. We introduce a transparent, one-layer transformer
toy model that reproduces such truth subspaces end-to-end and exposes one
concrete route by which they can arise. We study one simple setting in which
truth encoding can emerge: a data distribution where factual statements
co-occur with other factual statements (and vice-versa), encouraging the model
to learn this distinction in order to lower the LM loss on future tokens. We
corroborate this pattern with experiments in pretrained language models.
Finally, in the toy setting we observe a two-phase learning dynamic: networks
first memorize individual factual associations in a few steps, then -- over a
longer horizon -- learn to linearly separate true from false, which in turn
lowers language-modeling loss. Together, these results provide both a
mechanistic demonstration and an empirical motivation for how and why linear
truth representations can emerge in language models.