Beacon: 대규모 언어 모델의 잠재적 아첨 현상에 대한 단일 터닝 진단 및 완화 기법
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
저자: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
초록
대규모 언어 모델은 진실성과 아첨 사이의 구조적 절충을 내재화하며, 이는 도움을 주는 행위를 공손한 복종과 혼동하는 보상 최적화 과정에서 발생합니다. 이러한 잠재적 편향, 즉 아첨(sycophancy)은 원칙적 추론보다 사용자와의 동의를 선호하는 형태로 나타납니다. 우리는 이러한 편향을 대화 맥락과 독립적으로 분리하여 정확성과 복종적 편향 간의 긴장을 정밀하게 측정할 수 있는 단일 턴 강제 선택 벤치마크인 Beacon을 소개합니다. 12개의 최신 모델에 대한 평가를 통해 아첨이 안정적인 언어적 및 감정적 하위 편향으로 분해되며, 각각이 모델의 용량에 따라 확장됨을 확인했습니다. 또한, 우리는 이러한 편향을 상반된 방향으로 조절하는 프롬프트 수준과 활성화 수준의 개입 방안을 제안하며, 진실성과 사회적으로 순응적인 판단 사이의 동적 다양체로서 정렬의 내부 기하학을 드러냅니다. Beacon은 아첨을 측정 가능한 규범적 오일반화의 한 형태로 재구성함으로써, 대규모 생성 시스템에서의 정렬 이탈을 연구하고 완화하기 위한 재현 가능한 기반을 제공합니다.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.