Émergence d'encodages linéaires de la vérité dans les modèles de langage

papers.abstract

Des études récentes par sondage révèlent que les grands modèles de langage présentent des sous-espaces linéaires qui séparent les énoncés vrais des énoncés faux, bien que le mécanisme à l'origine de leur émergence reste flou. Nous introduisons un modèle jouet transparent, un transformateur à une couche, qui reproduit de tels sous-espaces de vérité de bout en bout et expose une voie concrète par laquelle ils peuvent apparaître. Nous étudions un cadre simple dans lequel l'encodage de la vérité peut émerger : une distribution de données où les énoncés factuels co-occurrent avec d'autres énoncés factuels (et vice-versa), encourageant le modèle à apprendre cette distinction afin de réduire la perte du modèle de langage sur les tokens futurs. Nous corroborons ce schéma par des expériences sur des modèles de langage pré-entraînés. Enfin, dans le cadre jouet, nous observons une dynamique d'apprentissage en deux phases : les réseaux mémorisent d'abord les associations factuelles individuelles en quelques étapes, puis — sur une plus longue période — apprennent à séparer linéairement le vrai du faux, ce qui à son tour réduit la perte de modélisation du langage. Ensemble, ces résultats fournissent à la fois une démonstration mécaniste et une motivation empirique quant à la manière et aux raisons pour lesquelles des représentations linéaires de la vérité peuvent émerger dans les modèles de langage.

English

Recent probing studies reveal that large language models exhibit linear subspaces that separate true from false statements, yet the mechanism behind their emergence is unclear. We introduce a transparent, one-layer transformer toy model that reproduces such truth subspaces end-to-end and exposes one concrete route by which they can arise. We study one simple setting in which truth encoding can emerge: a data distribution where factual statements co-occur with other factual statements (and vice-versa), encouraging the model to learn this distinction in order to lower the LM loss on future tokens. We corroborate this pattern with experiments in pretrained language models. Finally, in the toy setting we observe a two-phase learning dynamic: networks first memorize individual factual associations in a few steps, then -- over a longer horizon -- learn to linearly separate true from false, which in turn lowers language-modeling loss. Together, these results provide both a mechanistic demonstration and an empirical motivation for how and why linear truth representations can emerge in language models.

Émergence d'encodages linéaires de la vérité dans les modèles de langage

Emergence of Linear Truth Encodings in Language Models

papers.abstract

Support