ChatPaper.aiChatPaper

ビーコン:大規模言語モデルにおける潜在的シコファンシーの単一ターン診断と緩和

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

October 19, 2025
著者: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI

要旨

大規模言語モデルは、真実性と卑屈なお世辞との間に構造的なトレードオフを内在化しており、これは有用性を丁寧な服従と混同する報酬最適化から生じる。この潜在的なバイアスは、シコファンシー(ご機嫌取り)として知られ、原則に基づく推論よりもユーザーとの同意を優先する傾向として現れる。本研究では、会話の文脈に依存せずにこのバイアスを単離する単一ターン強制選択ベンチマーク「Beacon」を導入し、事実の正確性と従属的バイアスとの緊張関係を精密に測定することを可能にする。12の最先端モデルにわたる評価により、シコファンシーは安定した言語的および感情的なサブバイアスに分解され、それぞれがモデルの能力に比例して拡大することが明らかになった。さらに、これらのバイアスを相反する方向に調整するプロンプトレベルおよび活性化レベルの介入を提案し、真実性と社会的に順応した判断との間の動的な多様体としてのアラインメントの内部幾何学を明らかにする。Beaconは、シコファンシーを測定可能な規範的誤一般化として再定義し、大規模生成システムにおけるアラインメントの逸脱を研究し緩和するための再現可能な基盤を提供する。
English
Large language models internalize a structural trade-off between truthfulness and obsequious flattery, emerging from reward optimization that conflates helpfulness with polite submission. This latent bias, known as sycophancy, manifests as a preference for user agreement over principled reasoning. We introduce Beacon, a single-turn forced-choice benchmark that isolates this bias independent of conversational context, enabling precise measurement of the tension between factual accuracy and submissive bias. Evaluations across twelve state-of-the-art models reveal that sycophancy decomposes into stable linguistic and affective sub-biases, each scaling with model capacity. We further propose prompt-level and activation-level interventions that modulate these biases in opposing directions, exposing the internal geometry of alignment as a dynamic manifold between truthfulness and socially compliant judgment. Beacon reframes sycophancy as a measurable form of normative misgeneralization, providing a reproducible foundation for studying and mitigating alignment drift in large-scale generative systems.
PDF12October 21, 2025