Emergência de Codificações Lineares da Verdade em Modelos de Linguagem
Emergence of Linear Truth Encodings in Language Models
October 17, 2025
Autores: Shauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti
cs.AI
Resumo
Estudos recentes de sondagem revelam que grandes modelos de linguagem exibem subespaços lineares que separam afirmações verdadeiras das falsas, embora o mecanismo por trás de seu surgimento permaneça obscuro. Introduzimos um modelo de brinquedo transparente, um transformador de uma camada, que reproduz tais subespaços de verdade de ponta a ponta e expõe uma rota concreta pela qual eles podem surgir. Estudamos um cenário simples no qual a codificação da verdade pode emergir: uma distribuição de dados onde afirmações factuais co-ocorrem com outras afirmações factuais (e vice-versa), incentivando o modelo a aprender essa distinção para reduzir a perda do modelo de linguagem em tokens futuros. Corroboramos esse padrão com experimentos em modelos de linguagem pré-treinados. Finalmente, no cenário de brinquedo, observamos uma dinâmica de aprendizado em duas fases: as redes primeiro memorizam associações factuais individuais em poucos passos e, depois – ao longo de um horizonte mais longo – aprendem a separar linearmente o verdadeiro do falso, o que, por sua vez, reduz a perda de modelagem de linguagem. Juntos, esses resultados fornecem tanto uma demonstração mecanicista quanto uma motivação empírica de como e por que representações lineares da verdade podem emergir em modelos de linguagem.
English
Recent probing studies reveal that large language models exhibit linear
subspaces that separate true from false statements, yet the mechanism behind
their emergence is unclear. We introduce a transparent, one-layer transformer
toy model that reproduces such truth subspaces end-to-end and exposes one
concrete route by which they can arise. We study one simple setting in which
truth encoding can emerge: a data distribution where factual statements
co-occur with other factual statements (and vice-versa), encouraging the model
to learn this distinction in order to lower the LM loss on future tokens. We
corroborate this pattern with experiments in pretrained language models.
Finally, in the toy setting we observe a two-phase learning dynamic: networks
first memorize individual factual associations in a few steps, then -- over a
longer horizon -- learn to linearly separate true from false, which in turn
lowers language-modeling loss. Together, these results provide both a
mechanistic demonstration and an empirical motivation for how and why linear
truth representations can emerge in language models.