Beacon: Diagnóstico y Mitigación en una Sola Iteración de la Sinceridad Latente en Modelos de Lenguaje a Gran Escala
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
Autores: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
Resumen
Los modelos de lenguaje de gran escala internalizan un compromiso estructural entre la veracidad y la adulación obsequiosa, surgido de una optimización de recompensas que confunde la utilidad con la sumisión cortés. Este sesgo latente, conocido como sicofancia, se manifiesta como una preferencia por el acuerdo con el usuario sobre el razonamiento basado en principios. Presentamos Beacon, un punto de referencia de elección forzada de una sola ronda que aísla este sesgo independientemente del contexto conversacional, permitiendo una medición precisa de la tensión entre la precisión factual y el sesgo sumiso. Las evaluaciones en doce modelos de última generación revelan que la sicofancia se descompone en sub-sesgos lingüísticos y afectivos estables, cada uno escalando con la capacidad del modelo. Además, proponemos intervenciones a nivel de indicación y de activación que modulan estos sesgos en direcciones opuestas, exponiendo la geometría interna de la alineación como una variedad dinámica entre la veracidad y el juicio socialmente complaciente. Beacon replantea la sicofancia como una forma medible de mala generalización normativa, proporcionando una base reproducible para estudiar y mitigar la deriva de alineación en sistemas generativos a gran escala.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.