A Hipótese do Espectro da Veracidade

Resumo

Relatos indicam que modelos de linguagem de grande escala (LLMs) codificam a veracidade de forma linear, no entanto trabalhos recentes questionam a generalidade desta descoberta. Nós reconciliamos estas perspetivas com a hipótese do espetro de veracidade: o espaço representacional contém direções que variam desde domínios amplamente gerais até domínios estritamente específicos. Para testar esta hipótese, avaliamos sistematicamente a generalização de sondagens (probes) através de cinco tipos de verdade (definicional, empírica, lógica, ficcional e ética), mentiras sicofânticas e com expectativas invertidas, e benchmarks existentes de honestidade. Sondagens lineares generalizam bem na maioria dos domínios, mas falham em mentiras sicofânticas e com expectativas invertidas. No entanto, o treino em todos os domínios em conjunto recupera um forte desempenho, confirmando que existem direções de domínio geral, apesar da fraca transferência par a par. A geometria das direções das sondagens explica estes padrões: a similaridade do cosseno de Mahalanobis entre sondagens prevê quase perfeitamente a generalização cruzada de domínios (R^2=0.98). Métodos de supressão de conceitos (concept-erasure) isolam ainda mais direções de verdade que são (1) de domínio geral, (2) de domínio específico, ou (3) partilhadas apenas por subconjuntos específicos de domínios. Intervenções causais revelam que as direções de domínio específico direcionam mais eficazmente do que as de domínio geral. Finalmente, o pós-treinamento remodela a geometria da verdade, afastando as mentiras sicofânticas de outros tipos de verdade, sugerindo uma base representacional para as tendências sicofânticas dos modelos de chat. Em conjunto, os nossos resultados suportam a hipótese do espetro de veracidade: direções de verdade de variada generalidade coexistem no espaço representacional, com o pós-treinamento a remodelar a sua geometria. O código para todas as experiências é disponibilizado em https://github.com/zfying/truth_spec.

English

Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.

A Hipótese do Espectro da Veracidade

The Truthfulness Spectrum Hypothesis

Resumo

Support