Entstehung linearer Wahrheitskodierungen in Sprachmodellen

papers.abstract

Aktuelle Untersuchungen mittels Probing zeigen, dass große Sprachmodelle lineare Unterräume aufweisen, die wahre von falschen Aussagen trennen, doch der Mechanismus hinter ihrer Entstehung bleibt unklar. Wir stellen ein transparentes Transformator-Toymodell mit einer Schicht vor, das solche Wahrheitsunterräume end-to-end reproduziert und einen konkreten Entstehungsweg aufzeigt. Wir untersuchen ein einfaches Szenario, in dem sich eine Wahrheitskodierung entwickeln kann: eine Datenverteilung, bei der faktische Aussagen mit anderen faktischen Aussagen auftreten (und umgekehrt), was das Modell anregt, diese Unterscheidung zu erlernen, um den Sprachmodellverlust für folgende Tokens zu verringern. Dieses Muster bestätigen wir durch Experimente mit vortrainierten Sprachmodellen. Schließlich beobachten wir im Toy-Setting eine zweiphasige Lern-Dynamik: Netzwerke speichern zunächst in wenigen Schritten einzelne Faktenzuordnungen, bevor sie – über einen längeren Zeitraum – lernen, wahr von falsch linear zu trennen, was wiederum den Sprachmodellierungsverlust senkt. Zusammen liefern diese Ergebnisse sowohl einen mechanistischen Nachweis als auch eine empirische Begründung dafür, wie und warum lineare Wahrheitsrepräsentationen in Sprachmodellen entstehen können.

English

Recent probing studies reveal that large language models exhibit linear subspaces that separate true from false statements, yet the mechanism behind their emergence is unclear. We introduce a transparent, one-layer transformer toy model that reproduces such truth subspaces end-to-end and exposes one concrete route by which they can arise. We study one simple setting in which truth encoding can emerge: a data distribution where factual statements co-occur with other factual statements (and vice-versa), encouraging the model to learn this distinction in order to lower the LM loss on future tokens. We corroborate this pattern with experiments in pretrained language models. Finally, in the toy setting we observe a two-phase learning dynamic: networks first memorize individual factual associations in a few steps, then -- over a longer horizon -- learn to linearly separate true from false, which in turn lowers language-modeling loss. Together, these results provide both a mechanistic demonstration and an empirical motivation for how and why linear truth representations can emerge in language models.

Entstehung linearer Wahrheitskodierungen in Sprachmodellen

Emergence of Linear Truth Encodings in Language Models

papers.abstract

Support