Гипотеза спектра правдивости
The Truthfulness Spectrum Hypothesis
February 23, 2026
Авторы: Zhuofan Josh Ying, Shauli Ravfogel, Nikolaus Kriegeskorte, Peter Hase
cs.AI
Аннотация
Сообщалось, что большие языковые модели (БЯМ) линейно кодируют правдивость, однако недавние исследования ставят под вопрос универсальность этого вывода. Мы примиряем эти точки зрения с помощью гипотезы спектра правдивости: репрезентационное пространство содержит направления, варьирующиеся от широких доменно-общих до узких доменно-специфичных. Чтобы проверить эту гипотезу, мы систематически оцениваем обобщаемость проб (линейных классификаторов) для пяти типов истинности (дефиниционных, эмпирических, логических, вымышленных и этических), сикофантской лжи и лжи с инвертированными ожиданиями, а также существующих бенчмарков честности. Линейные пробы хорошо обобщаются в большинстве доменов, но не справляются с сикофантской ложью и ложью с инвертированными ожиданиями. Однако совместное обучение на всех доменах восстанавливает высокую производительность, подтверждая существование доменно-общих направлений, несмотря на слабый попарный перенос. Геометрия направлений проб объясняет эти закономерности: косинусное сходство Махаланобиса между пробами почти идеально предсказывает междоменное обобщение (R²=0.98). Методы стирания концептов дополнительно выделяют направления правдивости, которые являются (1) доменно-общими, (2) доменно-специфичными или (3) общими только для определенных подмножеств доменов. Каузальные интервенции показывают, что доменно-специфичные направления управляют поведением эффективнее, чем доменно-общие. Наконец, посттренинг изменяет геометрию правдивости, отодвигая сикофантскую ложь дальше от других типов истинности, что указывает на репрезентационную основу склонности чат-моделей к сикофантству. В совокупности наши результаты подтверждают гипотезу спектра правдивости: в репрезентационном пространстве сосуществуют направления правдивости разной степени общности, а посттренинг изменяет их геометрию. Код для всех экспериментов доступен по адресу https://github.com/zfying/truth_spec.
English
Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.