Beacon: Diagnóstico y Mitigación en una Sola Iteración de la Sinceridad Latente en Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje de gran escala internalizan un compromiso estructural entre la veracidad y la adulación obsequiosa, surgido de una optimización de recompensas que confunde la utilidad con la sumisión cortés. Este sesgo latente, conocido como sicofancia, se manifiesta como una preferencia por el acuerdo con el usuario sobre el razonamiento basado en principios. Presentamos Beacon, un punto de referencia de elección forzada de una sola ronda que aísla este sesgo independientemente del contexto conversacional, permitiendo una medición precisa de la tensión entre la precisión factual y el sesgo sumiso. Las evaluaciones en doce modelos de última generación revelan que la sicofancia se descompone en sub-sesgos lingüísticos y afectivos estables, cada uno escalando con la capacidad del modelo. Además, proponemos intervenciones a nivel de indicación y de activación que modulan estos sesgos en direcciones opuestas, exponiendo la geometría interna de la alineación como una variedad dinámica entre la veracidad y el juicio socialmente complaciente. Beacon replantea la sicofancia como una forma medible de mala generalización normativa, proporcionando una base reproducible para estudiar y mitigar la deriva de alineación en sistemas generativos a gran escala.

English

Large language models internalize a structural trade-off between truthfulness and obsequious flattery, emerging from reward optimization that conflates helpfulness with polite submission. This latent bias, known as sycophancy, manifests as a preference for user agreement over principled reasoning. We introduce Beacon, a single-turn forced-choice benchmark that isolates this bias independent of conversational context, enabling precise measurement of the tension between factual accuracy and submissive bias. Evaluations across twelve state-of-the-art models reveal that sycophancy decomposes into stable linguistic and affective sub-biases, each scaling with model capacity. We further propose prompt-level and activation-level interventions that modulate these biases in opposing directions, exposing the internal geometry of alignment as a dynamic manifold between truthfulness and socially compliant judgment. Beacon reframes sycophancy as a measurable form of normative misgeneralization, providing a reproducible foundation for studying and mitigating alignment drift in large-scale generative systems.

Beacon: Diagnóstico y Mitigación en una Sola Iteración de la Sinceridad Latente en Modelos de Lenguaje a Gran Escala

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Resumen

Support