Entstehung linearer Wahrheitskodierungen in Sprachmodellen
Emergence of Linear Truth Encodings in Language Models
October 17, 2025
papers.authors: Shauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti
cs.AI
papers.abstract
Aktuelle Untersuchungen mittels Probing zeigen, dass große Sprachmodelle lineare Unterräume aufweisen, die wahre von falschen Aussagen trennen, doch der Mechanismus hinter ihrer Entstehung bleibt unklar. Wir stellen ein transparentes Transformator-Toymodell mit einer Schicht vor, das solche Wahrheitsunterräume end-to-end reproduziert und einen konkreten Entstehungsweg aufzeigt. Wir untersuchen ein einfaches Szenario, in dem sich eine Wahrheitskodierung entwickeln kann: eine Datenverteilung, bei der faktische Aussagen mit anderen faktischen Aussagen auftreten (und umgekehrt), was das Modell anregt, diese Unterscheidung zu erlernen, um den Sprachmodellverlust für folgende Tokens zu verringern. Dieses Muster bestätigen wir durch Experimente mit vortrainierten Sprachmodellen. Schließlich beobachten wir im Toy-Setting eine zweiphasige Lern-Dynamik: Netzwerke speichern zunächst in wenigen Schritten einzelne Faktenzuordnungen, bevor sie – über einen längeren Zeitraum – lernen, wahr von falsch linear zu trennen, was wiederum den Sprachmodellierungsverlust senkt. Zusammen liefern diese Ergebnisse sowohl einen mechanistischen Nachweis als auch eine empirische Begründung dafür, wie und warum lineare Wahrheitsrepräsentationen in Sprachmodellen entstehen können.
English
Recent probing studies reveal that large language models exhibit linear
subspaces that separate true from false statements, yet the mechanism behind
their emergence is unclear. We introduce a transparent, one-layer transformer
toy model that reproduces such truth subspaces end-to-end and exposes one
concrete route by which they can arise. We study one simple setting in which
truth encoding can emerge: a data distribution where factual statements
co-occur with other factual statements (and vice-versa), encouraging the model
to learn this distinction in order to lower the LM loss on future tokens. We
corroborate this pattern with experiments in pretrained language models.
Finally, in the toy setting we observe a two-phase learning dynamic: networks
first memorize individual factual associations in a few steps, then -- over a
longer horizon -- learn to linearly separate true from false, which in turn
lowers language-modeling loss. Together, these results provide both a
mechanistic demonstration and an empirical motivation for how and why linear
truth representations can emerge in language models.