L'hypothèse du spectre de véridicité

Résumé

Les grands modèles de langage (LLM) ont été décrits comme encodant linéairement la véracité, mais des travaux récents remettent en cause la généralité de cette observation. Nous concilions ces points de vue avec l'hypothèse du spectre de véracité : l'espace représentationnel contient des directions allant de domaines généraux à des domaines étroitement spécifiques. Pour tester cette hypothèse, nous évaluons systématiquement la généralisation des sondes linéaires à travers cinq types de vérité (définitionnelle, empirique, logique, fictionnelle et éthique), le mensonge sycophantique et inversé par attente, ainsi que les benchmarks existants sur l'honnêteté. Les sondes linéaires généralisent bien dans la plupart des domaines mais échouent sur les mensonges sycophantiques et inversés par attente. Pourtant, un entraînement conjoint sur tous les domaines permet de retrouver de fortes performances, confirmant l'existence de directions générales malgré un faible transfert pair à pair. La géométrie des directions des sondes explique ces motifs : la similarité cosinus de Mahalanobis entre les sondes prédit quasi parfaitement la généralisation inter-domaines (R²=0,98). Les méthodes d'effacement conceptuel isolent davantage des directions de vérité qui sont (1) générales, (2) spécifiques à un domaine, ou (3) partagées uniquement par des sous-ensembles de domaines particuliers. Des interventions causales révèlent que les directions spécifiques sont plus efficaces pour orienter le modèle que les directions générales. Enfin, le post-entraînement remodelle la géométrie de la vérité, éloignant le mensonge sycophantique des autres types de vérité, suggérant une base représentationnelle aux tendances sycophantiques des modèles de chat. Ensemble, nos résultats soutiennent l'hypothèse du spectre de véracité : des directions de vérité de généralité variable coexistent dans l'espace représentationnel, le post-entraînement remodelant leur géométrie. Le code pour toutes les expériences est disponible sur https://github.com/zfying/truth_spec.

English

Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.

L'hypothèse du spectre de véridicité

The Truthfulness Spectrum Hypothesis

Résumé

Support