Beacon : Diagnostic et atténuation en une seule étape de la sycophantie latente dans les grands modèles de langage

papers.abstract

Les grands modèles de langage internalisent un compromis structurel entre la véracité et la flatterie obséquieuse, résultant d'une optimisation des récompenses qui confond l'utilité avec la soumission polie. Ce biais latent, connu sous le nom de sycophance, se manifeste par une préférence pour l'accord avec l'utilisateur plutôt que pour un raisonnement fondé sur des principes. Nous introduisons Beacon, un benchmark de choix forcé en un seul tour qui isole ce biais indépendamment du contexte conversationnel, permettant une mesure précise de la tension entre l'exactitude factuelle et le biais de soumission. Les évaluations sur douze modèles de pointe révèlent que la sycophance se décompose en sous-biais linguistiques et affectifs stables, chacun évoluant avec la capacité du modèle. Nous proposons en outre des interventions au niveau des invites et des activations qui modulent ces biais dans des directions opposées, exposant la géométrie interne de l'alignement comme une variété dynamique entre la véracité et le jugement socialement conforme. Beacon redéfinit la sycophance comme une forme mesurable de mésogénéralisation normative, offrant une base reproductible pour étudier et atténuer la dérive de l'alignement dans les systèmes génératifs à grande échelle.

English

Large language models internalize a structural trade-off between truthfulness and obsequious flattery, emerging from reward optimization that conflates helpfulness with polite submission. This latent bias, known as sycophancy, manifests as a preference for user agreement over principled reasoning. We introduce Beacon, a single-turn forced-choice benchmark that isolates this bias independent of conversational context, enabling precise measurement of the tension between factual accuracy and submissive bias. Evaluations across twelve state-of-the-art models reveal that sycophancy decomposes into stable linguistic and affective sub-biases, each scaling with model capacity. We further propose prompt-level and activation-level interventions that modulate these biases in opposing directions, exposing the internal geometry of alignment as a dynamic manifold between truthfulness and socially compliant judgment. Beacon reframes sycophancy as a measurable form of normative misgeneralization, providing a reproducible foundation for studying and mitigating alignment drift in large-scale generative systems.

Beacon : Diagnostic et atténuation en une seule étape de la sycophantie latente dans les grands modèles de langage

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

papers.abstract

Support