Die Hypothese des Wahrhaftigkeitsspektrums

Zusammenfassung

Große Sprachmodelle (LLMs) sollen Wahrhaftigkeit linear kodieren, doch jüngste Arbeiten stellen die Allgemeingültigkeit dieses Befunds in Frage. Wir vereinen diese Ansichten mit der Hypothese des Wahrhaftigkeitsspektrums: Der Repräsentationsraum enthält Richtungen, die von breit domänenübergreifend bis hin zu eng domänenspezifisch reichen. Um diese Hypothese zu testen, evaluieren wir systematisch die Generalisierung von Probes über fünf Wahrheitstypen hinweg (definitorisch, empirisch, logisch, fiktional und ethisch), sykophantisches und erwartungsinvertiertes Lügen sowie bestehende Ehrlichkeits-Benchmarks. Lineare Probes generalisieren gut über die meisten Domänen hinweg, scheitern jedoch bei sykophantischem und erwartungsinvertiertem Lügen. Doch Training über alle Domänen hinweg stellt eine starke Leistung wieder her, was bestätigt, dass domänenübergreifende Richtungen existieren, trotz schlechter paarweiser Übertragung. Die Geometrie der Probe-Richtungen erklärt diese Muster: Die Mahalanobis-Kosinusähnlichkeit zwischen Probes sagt domänenübergreifende Generalisierung nahezu perfekt vorher (R²=0,98). Konzeptlöschungsmethoden isolieren weiterhin Wahrheitsrichtungen, die (1) domänenübergreifend, (2) domänenspezifisch oder (3) nur über bestimmte Domänenteilmengen hinweg geteilt sind. Kausale Interventionen zeigen, dass domänenspezifische Richtungen wirksamer steuern als domänenübergreifende. Schließlich verändert Nachtraining die Wahrheitsgeometrie, indem es sykophantisches Lügen weiter von anderen Wahrheitstypen entfernt, was auf eine repräsentationale Basis für die sykophantischen Tendenzen von Chat-Modellen hindeutet. Zusammengenommen stützen unsere Ergebnisse die Hypothese des Wahrhaftigkeitsspektrums: Wahrheitsrichtungen unterschiedlicher Allgemeinheit koexistieren im Repräsentationsraum, wobei Nachtraining ihre Geometrie verändert. Der Code für alle Experimente ist unter https://github.com/zfying/truth_spec verfügbar.

English

Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.

Die Hypothese des Wahrhaftigkeitsspektrums

The Truthfulness Spectrum Hypothesis

Zusammenfassung

Support