Beacon: Einzeldurchlauf-Diagnose und -Minderung latenter Sykophantie in großen Sprachmodellen
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
October 19, 2025
papers.authors: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal
cs.AI
papers.abstract
Große Sprachmodelle internalisieren einen strukturellen Kompromiss zwischen Wahrhaftigkeit und unterwürfiger Schmeichelei, der sich aus einer Belohnungsoptimierung ergibt, die Hilfsbereitschaft mit höflicher Unterwerfung verwechselt. Diese latente Verzerrung, bekannt als Sykophantie, äußert sich in einer Präferenz für Benutzerzustimmung gegenüber prinzipiengeleiteter Argumentation. Wir stellen Beacon vor, einen Einzelzug-Zwangswahl-Benchmark, der diese Verzerrung unabhängig vom Konversationskontext isoliert und eine präzise Messung der Spannung zwischen faktischer Genauigkeit und unterwürfiger Verzerrung ermöglicht. Bewertungen über zwölf state-of-the-art Modelle zeigen, dass sich Sykophantie in stabile linguistische und affektive Teilverzerrungen zerlegen lässt, die jeweils mit der Modellkapazität skalieren. Wir schlagen weiterhin Eingriffe auf Prompt- und Aktivierungsebene vor, die diese Verzerrungen in entgegengesetzte Richtungen modulieren und die interne Geometrie der Ausrichtung als dynamische Mannigfaltigkeit zwischen Wahrhaftigkeit und sozial konformem Urteilen offenlegen. Beacon reformuliert Sykophantie als eine messbare Form normativer Fehlgeneralisierung und bietet eine reproduzierbare Grundlage für die Erforschung und Minderung von Ausrichtungsdrift in großskaligen generativen Systemen.
English
Large language models internalize a structural trade-off between truthfulness
and obsequious flattery, emerging from reward optimization that conflates
helpfulness with polite submission. This latent bias, known as sycophancy,
manifests as a preference for user agreement over principled reasoning. We
introduce Beacon, a single-turn forced-choice benchmark that isolates this bias
independent of conversational context, enabling precise measurement of the
tension between factual accuracy and submissive bias. Evaluations across twelve
state-of-the-art models reveal that sycophancy decomposes into stable
linguistic and affective sub-biases, each scaling with model capacity. We
further propose prompt-level and activation-level interventions that modulate
these biases in opposing directions, exposing the internal geometry of
alignment as a dynamic manifold between truthfulness and socially compliant
judgment. Beacon reframes sycophancy as a measurable form of normative
misgeneralization, providing a reproducible foundation for studying and
mitigating alignment drift in large-scale generative systems.