Émergence d'encodages linéaires de la vérité dans les modèles de langage
Emergence of Linear Truth Encodings in Language Models
October 17, 2025
papers.authors: Shauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti
cs.AI
papers.abstract
Des études récentes par sondage révèlent que les grands modèles de langage présentent des sous-espaces linéaires qui séparent les énoncés vrais des énoncés faux, bien que le mécanisme à l'origine de leur émergence reste flou. Nous introduisons un modèle jouet transparent, un transformateur à une couche, qui reproduit de tels sous-espaces de vérité de bout en bout et expose une voie concrète par laquelle ils peuvent apparaître. Nous étudions un cadre simple dans lequel l'encodage de la vérité peut émerger : une distribution de données où les énoncés factuels co-occurrent avec d'autres énoncés factuels (et vice-versa), encourageant le modèle à apprendre cette distinction afin de réduire la perte du modèle de langage sur les tokens futurs. Nous corroborons ce schéma par des expériences sur des modèles de langage pré-entraînés. Enfin, dans le cadre jouet, nous observons une dynamique d'apprentissage en deux phases : les réseaux mémorisent d'abord les associations factuelles individuelles en quelques étapes, puis — sur une plus longue période — apprennent à séparer linéairement le vrai du faux, ce qui à son tour réduit la perte de modélisation du langage. Ensemble, ces résultats fournissent à la fois une démonstration mécaniste et une motivation empirique quant à la manière et aux raisons pour lesquelles des représentations linéaires de la vérité peuvent émerger dans les modèles de langage.
English
Recent probing studies reveal that large language models exhibit linear
subspaces that separate true from false statements, yet the mechanism behind
their emergence is unclear. We introduce a transparent, one-layer transformer
toy model that reproduces such truth subspaces end-to-end and exposes one
concrete route by which they can arise. We study one simple setting in which
truth encoding can emerge: a data distribution where factual statements
co-occur with other factual statements (and vice-versa), encouraging the model
to learn this distinction in order to lower the LM loss on future tokens. We
corroborate this pattern with experiments in pretrained language models.
Finally, in the toy setting we observe a two-phase learning dynamic: networks
first memorize individual factual associations in a few steps, then -- over a
longer horizon -- learn to linearly separate true from false, which in turn
lowers language-modeling loss. Together, these results provide both a
mechanistic demonstration and an empirical motivation for how and why linear
truth representations can emerge in language models.