La Hipótesis del Espectro de Veracidad

Resumen

Se ha reportado que los modelos de lenguaje grandes (LLM) codifican linealmente la veracidad, sin embargo, trabajos recientes cuestionan la generalidad de este hallazgo. Reconciliamos estas posturas con la hipótesis del espectro de veracidad: el espacio representacional contiene direcciones que van desde lo ampliamente general por dominio hasta lo estrechamente específico por dominio. Para probar esta hipótesis, evaluamos sistemáticamente la generalización de sondas a través de cinco tipos de verdad (definicional, empírica, lógica, ficticia y ética), la mentira sicofántica y por inversión de expectativas, y benchmarks existentes de honestidad. Las sondas lineales generalizan bien en la mayoría de los dominios, pero fallan en la mentira sicofántica y por inversión de expectativas. No obstante, el entrenamiento conjunto en todos los dominios recupera un rendimiento sólido, confirmando que existen direcciones generales por dominio a pesar de una pobre transferencia por pares. La geometría de las direcciones de las sondas explica estos patrones: la similitud del coseno de Mahalanobis entre sondas predice casi a la perfección la generalización cruzada de dominios (R^2=0.98). Los métodos de borrado de conceptos aíslan además direcciones de verdad que son (1) generales por dominio, (2) específicas por dominio, o (3) compartidas solo a través de subconjuntos particulares de dominios. Las intervenciones causales revelan que las direcciones específicas por dominio son más efectivas para guiar el modelo que las generales por dominio. Finalmente, el post-entrenamiento remodela la geometría de la verdad, alejando la mentira sicofántica de otros tipos de verdad, lo que sugiere una base representacional para las tendencias sicofánticas de los modelos de chat. En conjunto, nuestros resultados respaldan la hipótesis del espectro de veracidad: direcciones de verdad de variada generalidad coexisten en el espacio representacional, y el post-entrenamiento remodela su geometría. El código para todos los experimentos se proporciona en https://github.com/zfying/truth_spec.

English

Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.

La Hipótesis del Espectro de Veracidad

The Truthfulness Spectrum Hypothesis

Resumen

Support