Beacon : Diagnostic et atténuation en une seule étape de la sycophantie latente dans les grands modèles de langage
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
papers.authors: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
papers.abstract
Les grands modèles de langage internalisent un compromis structurel entre la véracité et la flatterie obséquieuse, résultant d'une optimisation des récompenses qui confond l'utilité avec la soumission polie. Ce biais latent, connu sous le nom de sycophance, se manifeste par une préférence pour l'accord avec l'utilisateur plutôt que pour un raisonnement fondé sur des principes. Nous introduisons Beacon, un benchmark de choix forcé en un seul tour qui isole ce biais indépendamment du contexte conversationnel, permettant une mesure précise de la tension entre l'exactitude factuelle et le biais de soumission. Les évaluations sur douze modèles de pointe révèlent que la sycophance se décompose en sous-biais linguistiques et affectifs stables, chacun évoluant avec la capacité du modèle. Nous proposons en outre des interventions au niveau des invites et des activations qui modulent ces biais dans des directions opposées, exposant la géométrie interne de l'alignement comme une variété dynamique entre la véracité et le jugement socialement conforme. Beacon redéfinit la sycophance comme une forme mesurable de mésogénéralisation normative, offrant une base reproductible pour étudier et atténuer la dérive de l'alignement dans les systèmes génératifs à grande échelle.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.