Emergência de Codificações Lineares da Verdade em Modelos de Linguagem

Resumo

Estudos recentes de sondagem revelam que grandes modelos de linguagem exibem subespaços lineares que separam afirmações verdadeiras das falsas, embora o mecanismo por trás de seu surgimento permaneça obscuro. Introduzimos um modelo de brinquedo transparente, um transformador de uma camada, que reproduz tais subespaços de verdade de ponta a ponta e expõe uma rota concreta pela qual eles podem surgir. Estudamos um cenário simples no qual a codificação da verdade pode emergir: uma distribuição de dados onde afirmações factuais co-ocorrem com outras afirmações factuais (e vice-versa), incentivando o modelo a aprender essa distinção para reduzir a perda do modelo de linguagem em tokens futuros. Corroboramos esse padrão com experimentos em modelos de linguagem pré-treinados. Finalmente, no cenário de brinquedo, observamos uma dinâmica de aprendizado em duas fases: as redes primeiro memorizam associações factuais individuais em poucos passos e, depois – ao longo de um horizonte mais longo – aprendem a separar linearmente o verdadeiro do falso, o que, por sua vez, reduz a perda de modelagem de linguagem. Juntos, esses resultados fornecem tanto uma demonstração mecanicista quanto uma motivação empírica de como e por que representações lineares da verdade podem emergir em modelos de linguagem.

English

Recent probing studies reveal that large language models exhibit linear subspaces that separate true from false statements, yet the mechanism behind their emergence is unclear. We introduce a transparent, one-layer transformer toy model that reproduces such truth subspaces end-to-end and exposes one concrete route by which they can arise. We study one simple setting in which truth encoding can emerge: a data distribution where factual statements co-occur with other factual statements (and vice-versa), encouraging the model to learn this distinction in order to lower the LM loss on future tokens. We corroborate this pattern with experiments in pretrained language models. Finally, in the toy setting we observe a two-phase learning dynamic: networks first memorize individual factual associations in a few steps, then -- over a longer horizon -- learn to linearly separate true from false, which in turn lowers language-modeling loss. Together, these results provide both a mechanistic demonstration and an empirical motivation for how and why linear truth representations can emerge in language models.

Emergência de Codificações Lineares da Verdade em Modelos de Linguagem

Emergence of Linear Truth Encodings in Language Models

Resumo

Support