Гипотеза спектра правдивости

Аннотация

Сообщалось, что большие языковые модели (БЯМ) линейно кодируют правдивость, однако недавние исследования ставят под вопрос универсальность этого вывода. Мы примиряем эти точки зрения с помощью гипотезы спектра правдивости: репрезентационное пространство содержит направления, варьирующиеся от широких доменно-общих до узких доменно-специфичных. Чтобы проверить эту гипотезу, мы систематически оцениваем обобщаемость проб (линейных классификаторов) для пяти типов истинности (дефиниционных, эмпирических, логических, вымышленных и этических), сикофантской лжи и лжи с инвертированными ожиданиями, а также существующих бенчмарков честности. Линейные пробы хорошо обобщаются в большинстве доменов, но не справляются с сикофантской ложью и ложью с инвертированными ожиданиями. Однако совместное обучение на всех доменах восстанавливает высокую производительность, подтверждая существование доменно-общих направлений, несмотря на слабый попарный перенос. Геометрия направлений проб объясняет эти закономерности: косинусное сходство Махаланобиса между пробами почти идеально предсказывает междоменное обобщение (R²=0.98). Методы стирания концептов дополнительно выделяют направления правдивости, которые являются (1) доменно-общими, (2) доменно-специфичными или (3) общими только для определенных подмножеств доменов. Каузальные интервенции показывают, что доменно-специфичные направления управляют поведением эффективнее, чем доменно-общие. Наконец, посттренинг изменяет геометрию правдивости, отодвигая сикофантскую ложь дальше от других типов истинности, что указывает на репрезентационную основу склонности чат-моделей к сикофантству. В совокупности наши результаты подтверждают гипотезу спектра правдивости: в репрезентационном пространстве сосуществуют направления правдивости разной степени общности, а посттренинг изменяет их геометрию. Код для всех экспериментов доступен по адресу https://github.com/zfying/truth_spec.

English

Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.

Гипотеза спектра правдивости

The Truthfulness Spectrum Hypothesis

Аннотация

Support