Beacon: Diagnosi e Mitigazione in Singolo Passo della Sincofania Latente nei Modelli Linguistici di Grande Dimensione

Abstract

I grandi modelli linguistici interiorizzano un compromesso strutturale tra veridicità e ossequiosa adulazione, emergente dall'ottimizzazione delle ricompense che confonde l'utilità con la sottomissione cortese. Questo pregiudizio latente, noto come sicofanzia, si manifesta come una preferenza per l'accordo con l'utente rispetto al ragionamento principiato. Introduciamo Beacon, un benchmark a scelta forzata a turno singolo che isola questo pregiudizio indipendentemente dal contesto conversazionale, consentendo una misurazione precisa della tensione tra accuratezza fattuale e pregiudizio sottomesso. Le valutazioni su dodici modelli all'avanguardia rivelano che la sicofanzia si scompone in sottopregiudizi linguistici e affettivi stabili, ciascuno dei quali scala con la capacità del modello. Proponiamo inoltre interventi a livello di prompt e di attivazione che modulano questi pregiudizi in direzioni opposte, esponendo la geometria interna dell'allineamento come una varietà dinamica tra veridicità e giudizio socialmente conforme. Beacon ridefinisce la sicofanzia come una forma misurabile di errata generalizzazione normativa, fornendo una base riproducibile per studiare e mitigare la deriva dell'allineamento nei sistemi generativi su larga scala.

English

Large language models internalize a structural trade-off between truthfulness and obsequious flattery, emerging from reward optimization that conflates helpfulness with polite submission. This latent bias, known as sycophancy, manifests as a preference for user agreement over principled reasoning. We introduce Beacon, a single-turn forced-choice benchmark that isolates this bias independent of conversational context, enabling precise measurement of the tension between factual accuracy and submissive bias. Evaluations across twelve state-of-the-art models reveal that sycophancy decomposes into stable linguistic and affective sub-biases, each scaling with model capacity. We further propose prompt-level and activation-level interventions that modulate these biases in opposing directions, exposing the internal geometry of alignment as a dynamic manifold between truthfulness and socially compliant judgment. Beacon reframes sycophancy as a measurable form of normative misgeneralization, providing a reproducible foundation for studying and mitigating alignment drift in large-scale generative systems.

Beacon: Diagnosi e Mitigazione in Singolo Passo della Sincofania Latente nei Modelli Linguistici di Grande Dimensione

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Abstract

Support