L'Ipotesi dello Spettro della Veridicità

Abstract

È stato riportato che i grandi modelli linguistici (LLM) codificano linearmente la veridicità, tuttavia lavori recenti mettono in discussione la generalità di questo risultato. Riconciliamo queste prospettive con l'ipotesi dello spettro di veridicità: lo spazio rappresentativo contiene direzioni che spaziano da ampiamente dominio-generali a strettamente dominio-specifiche. Per testare questa ipotesi, valutiamo sistematicamente la generalizzazione delle sonde attraverso cinque tipi di verità (definizionale, empirica, logica, fittizia ed etica), la menzogna sicofantica e a inversione di aspettative, e benchmark esistenti sull'onestà. Le sonde lineari si generalizzano bene nella maggior parte dei domini, ma falliscono sulla menzogna sicofantica e a inversione di aspettative. Tuttavia, l'addestramento su tutti i domini congiuntamente recupera prestazioni robuste, confermando che esistono direzioni dominio-generali nonostante un debole trasferimento a coppie. La geometria delle direzioni delle sonde spiega questi pattern: la similarità coseno di Mahalanobis tra le sonde predice quasi perfettamente la generalizzazione incrociata di dominio (R^2=0.98). Metodi di cancellazione concettuale isolano ulteriormente direzioni di verità che sono (1) dominio-generali, (2) dominio-specifiche, o (3) condivise solo attraverso particolari sottoinsiemi di dominio. Interventi causali rivelano che le direzioni dominio-specifiche pilotano più efficacemente di quelle dominio-generali. Infine, il post-addestramento rimodella la geometria della verità, allontanando la menzogna sicofantica dagli altri tipi di verità, suggerendo una base rappresentativa per le tendenze sicofantiche dei modelli chat. Nel complesso, i nostri risultati supportano l'ipotesi dello spettro di veridicità: direzioni di verità di varia generalità coesistono nello spazio rappresentativo, con il post-addestramento che ne rimodella la geometria. Il codice per tutti gli esperimenti è fornito su https://github.com/zfying/truth_spec.

English

Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.

L'Ipotesi dello Spettro della Veridicità

The Truthfulness Spectrum Hypothesis

Abstract

Support