Beacon: Однократная диагностика и устранение скрытой угодливости в крупных языковых моделях
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
Авторы: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
Аннотация
Крупные языковые модели интериоризируют структурный компромисс между правдивостью и подобострастной лестью, возникающий из оптимизации вознаграждения, которая смешивает полезность с вежливым подчинением. Этот скрытый уклон, известный как сикофантия, проявляется в предпочтении согласия с пользователем перед принципиальным рассуждением. Мы представляем Beacon — одношаговый бенчмарк с принудительным выбором, который изолирует этот уклон независимо от контекста разговора, позволяя точно измерить напряжение между фактической точностью и склонностью к подчинению. Оценки двенадцати современных моделей показывают, что сикофантия распадается на устойчивые лингвистические и аффективные субуклоны, каждый из которых масштабируется с увеличением мощности модели. Мы также предлагаем вмешательства на уровне промптов и активаций, которые модулируют эти уклоны в противоположных направлениях, раскрывая внутреннюю геометрию согласованности как динамическое многообразие между правдивостью и социально приемлемым суждением. Beacon переосмысливает сикофантию как измеримую форму нормативной неправильной генерализации, предоставляя воспроизводимую основу для изучения и смягчения отклонений в согласованности крупномасштабных генеративных систем.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.