BenSyc: Benchmarking van conversationele sycophantie en menselijke afstemming in LLM's voor Bengaalse contexten

Samenvatting

Grote taalmodellen (LLM's) nemen steeds vaker deel aan emotioneel gevoelige sociale gesprekken, waarbij reacties kunnen verschuiven van evenwichtige ondersteuning naar buitensporige validatie of escalerende afstemming. Bestaand onderzoek naar sycophancy richt zich voornamelijk op feitelijke overeenstemming en instructievolgende situaties, waardoor cultureel verankerde conversationele sycophancy onderbelicht blijft. We introduceren BenSyc, de eerste benchmark voor het bestuderen van conversationele sycophancy in Bengaalse sociale contexten. Uitgaande van 11.840 Reddit-berichten en 170.000 reacties verzameld uit gemeenschappen in Bangladesh en West-Bengalen, construeren we een door mensen gevalideerde benchmark met binaire labels en een fijnmazige taxonomie op vijf niveaus, bestaande uit Ongeldigverklaring, Neutraal, Ondersteuning, Validatie en Escalatie. We evalueren meer dan 15 open en propriëtaire LLM's op taken voor conversationele afstemmingsclassificatie en responsgeneratie. De resultaten tonen aan dat het onderscheiden van empathische ondersteuning van op bekrachtiging gerichte validatie zelfs voor geavanceerde instructie-afgestemde modellen een uitdaging blijft: het beste systeem behaalt slechts 61,8 Macro-F1 op binaire detectie en 61,7 Macro-F1 op vijfklassenclassificatie. In generatie-instellingen produceren verschillende modellen vaak sterk validerende of escalerende reacties in emotioneel geladen situaties. Onze bevindingen benadrukken aanzienlijke variatie tussen modelfamilies en conversationeel gedrag, wat het belang onderstreept van cultureel verankerde meertalige benchmarks voor het evalueren van sociaal afgestemde conversationele AI-systemen.

English

Large language models (LLMs) increasingly participate in emotionally sensitive social conversations, where responses may shift from balanced support toward excessive validation or escalatory alignment. Existing sycophancy research primarily focuses on factual agreement and instruction-following settings, leaving culturally grounded conversational sycophancy underexplored. We introduce BenSyc, the first benchmark for studying conversational sycophancy in Bengali social contexts. Starting from 11,840 Reddit posts and 170k comments collected from communities across Bangladesh and West Bengal, we construct a human-validated benchmark with binary labels and a fine-grained five-level taxonomy spanning Invalidation, Neutral, Support, Validation, and Escalation. We evaluate more than 15 open and proprietary LLMs on conversational alignment classification and response generation tasks. Results show that distinguishing empathetic support from reinforcement-oriented validation remains challenging even for frontier instruction-tuned models: the best system achieves only 61.8 Macro-F1 on binary detection and 61.7 Macro-F1 on five-class classification. In generation settings, several models frequently produce strongly validating or escalatory responses in emotionally charged situations. Our findings highlight substantial variation across model families and conversational behaviors, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.