BenSyc: Бенчмаркинг разговорного сикофантства и согласования с человеком в больших языковых моделях для бенгальских контекстов

Аннотация

Большие языковые модели (LLM) всё чаще участвуют в эмоционально чувствительных социальных разговорах, где ответы могут смещаться от сбалансированной поддержки к чрезмерному одобрению или эскалационному выравниванию. Существующие исследования сикофантии в основном сосредоточены на согласии с фактами и следовании инструкциям, оставляя культурно обусловленную конверсационную сикофантию малоизученной. Мы представляем BenSyc — первый бенчмарк для изучения конверсационной сикофантии в бенгальских социальных контекстах. Начиная с 11 840 постов Reddit и 170 тыс. комментариев, собранных из сообществ по всему Бангладеш и Западной Бенгалии, мы создаём верифицированный людьми бенчмарк с бинарными метками и детальной пятиуровневой таксономией, включающей инвалидацию, нейтральную позицию, поддержку, одобрение и эскалацию. Мы оцениваем более 15 открытых и проприетарных LLM на задачах классификации конверсационного выравнивания и генерации ответов. Результаты показывают, что различение эмпатической поддержки и ориентированного на подкрепление одобрения остаётся сложной задачей даже для передовых моделей, настроенных на инструкции: лучшая система достигает лишь 61,8 макро-F1 по бинарному обнаружению и 61,7 макро-F1 по классификации на пять классов. В условиях генерации несколько моделей часто выдают сильно одобрительные или эскалационные ответы в эмоционально заряженных ситуациях. Наши выводы подчёркивают существенные различия между семействами моделей и типами конверсационного поведения, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.

English

Large language models (LLMs) increasingly participate in emotionally sensitive social conversations, where responses may shift from balanced support toward excessive validation or escalatory alignment. Existing sycophancy research primarily focuses on factual agreement and instruction-following settings, leaving culturally grounded conversational sycophancy underexplored. We introduce BenSyc, the first benchmark for studying conversational sycophancy in Bengali social contexts. Starting from 11,840 Reddit posts and 170k comments collected from communities across Bangladesh and West Bengal, we construct a human-validated benchmark with binary labels and a fine-grained five-level taxonomy spanning Invalidation, Neutral, Support, Validation, and Escalation. We evaluate more than 15 open and proprietary LLMs on conversational alignment classification and response generation tasks. Results show that distinguishing empathetic support from reinforcement-oriented validation remains challenging even for frontier instruction-tuned models: the best system achieves only 61.8 Macro-F1 on binary detection and 61.7 Macro-F1 on five-class classification. In generation settings, several models frequently produce strongly validating or escalatory responses in emotionally charged situations. Our findings highlight substantial variation across model families and conversational behaviors, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.