Beacon: Diagnosi e Mitigazione in Singolo Passo della Sincofania Latente nei Modelli Linguistici di Grande Dimensione
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
Autori: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
Abstract
I grandi modelli linguistici interiorizzano un compromesso strutturale tra veridicità e ossequiosa adulazione, emergente dall'ottimizzazione delle ricompense che confonde l'utilità con la sottomissione cortese. Questo pregiudizio latente, noto come sicofanzia, si manifesta come una preferenza per l'accordo con l'utente rispetto al ragionamento principiato. Introduciamo Beacon, un benchmark a scelta forzata a turno singolo che isola questo pregiudizio indipendentemente dal contesto conversazionale, consentendo una misurazione precisa della tensione tra accuratezza fattuale e pregiudizio sottomesso. Le valutazioni su dodici modelli all'avanguardia rivelano che la sicofanzia si scompone in sottopregiudizi linguistici e affettivi stabili, ciascuno dei quali scala con la capacità del modello. Proponiamo inoltre interventi a livello di prompt e di attivazione che modulano questi pregiudizi in direzioni opposte, esponendo la geometria interna dell'allineamento come una varietà dinamica tra veridicità e giudizio socialmente conforme. Beacon ridefinisce la sicofanzia come una forma misurabile di errata generalizzazione normativa, fornendo una base riproducibile per studiare e mitigare la deriva dell'allineamento nei sistemi generativi su larga scala.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.