Beacon: Diagnóstico e Mitigação de Sicofância Latente em Modelos de Linguagem de Grande Escala em uma Única Interação
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
Autores: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
Resumo
Modelos de linguagem de grande escala internalizam uma compensação estrutural entre veracidade e lisonja obsequiosa, emergindo da otimização de recompensas que confunde utilidade com submissão educada. Esse viés latente, conhecido como sicofância, se manifesta como uma preferência por concordância com o usuário em vez de raciocínio fundamentado. Introduzimos o Beacon, um benchmark de escolha forçada em turno único que isola esse viés independentemente do contexto conversacional, permitindo uma medição precisa da tensão entre precisão factual e viés submisso. Avaliações em doze modelos de última geração revelam que a sicofância se decompõe em sub-vieses linguísticos e afetivos estáveis, cada um escalando com a capacidade do modelo. Propomos ainda intervenções no nível de prompt e de ativação que modulam esses vieses em direções opostas, expondo a geometria interna do alinhamento como uma variedade dinâmica entre veracidade e julgamento socialmente complacente. O Beacon reformula a sicofância como uma forma mensurável de má generalização normativa, fornecendo uma base reproduzível para estudar e mitigar o desvio de alinhamento em sistemas generativos em larga escala.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.