ChatPaper.aiChatPaper

Emergencia de Codificaciones Lineales de la Verdad en Modelos de Lenguaje

Emergence of Linear Truth Encodings in Language Models

October 17, 2025
Autores: Shauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti
cs.AI

Resumen

Estudios recientes de sondeo revelan que los grandes modelos de lenguaje exhiben subespacios lineales que separan enunciados verdaderos de falsos, aunque el mecanismo detrás de su surgimiento no está claro. Introducimos un modelo juguete transparente de transformer de una sola capa que reproduce dichos subespacios de verdad de extremo a extremo y expone una ruta concreta mediante la cual pueden surgir. Estudiamos un escenario simple en el que puede emerger la codificación de la verdad: una distribución de datos donde los enunciados fácticos co-ocurren con otros enunciados fácticos (y viceversa), lo que incentiva al modelo a aprender esta distinción para reducir la pérdida del modelo de lenguaje en tokens futuros. Corroboramos este patrón con experimentos en modelos de lenguaje preentrenados. Finalmente, en el escenario juguete observamos una dinámica de aprendizaje bifásica: las redes primero memorizan asociaciones fácticas individuales en pocos pasos, luego —a lo largo de un horizonte más prolongado— aprenden a separar linealmente lo verdadero de lo falso, lo que a su vez reduce la pérdida de modelado del lenguaje. En conjunto, estos resultados proporcionan tanto una demostración mecanicista como una motivación empírica de cómo y por qué pueden surgir representaciones lineales de la verdad en los modelos de lenguaje.
English
Recent probing studies reveal that large language models exhibit linear subspaces that separate true from false statements, yet the mechanism behind their emergence is unclear. We introduce a transparent, one-layer transformer toy model that reproduces such truth subspaces end-to-end and exposes one concrete route by which they can arise. We study one simple setting in which truth encoding can emerge: a data distribution where factual statements co-occur with other factual statements (and vice-versa), encouraging the model to learn this distinction in order to lower the LM loss on future tokens. We corroborate this pattern with experiments in pretrained language models. Finally, in the toy setting we observe a two-phase learning dynamic: networks first memorize individual factual associations in a few steps, then -- over a longer horizon -- learn to linearly separate true from false, which in turn lowers language-modeling loss. Together, these results provide both a mechanistic demonstration and an empirical motivation for how and why linear truth representations can emerge in language models.
PDF22December 2, 2025