BenSyc: Benchmarking de Sicofania Conversacional e Alinhamento Humano em LLMs para Contextos Bengalês

Resumo

Modelos de linguagem de grande escala (LLMs) participam cada vez mais de conversas sociais emocionalmente sensíveis, onde as respostas podem passar de um apoio equilibrado para uma validação excessiva ou um alinhamento de escalada. As pesquisas existentes sobre bajulação concentram-se principalmente em contextos de concordância factual e de seguimento de instruções, deixando a bajulação conversacional enraizada culturalmente pouco explorada. Apresentamos o BenSyc, o primeiro benchmark para o estudo da bajulação conversacional em contextos sociais bengalis. Partindo de 11.840 publicações do Reddit e 170 mil comentários coletados de comunidades em Bangladesh e Bengala Ocidental, construímos um benchmark validado por humanos com rótulos binários e uma taxonomia refinada de cinco níveis que abrange Invalidação, Neutro, Apoio, Validação e Escalação. Avaliamos mais de 15 LLMs abertos e proprietários em tarefas de classificação de alinhamento conversacional e geração de respostas. Os resultados mostram que distinguir apoio empático de validação orientada a reforço continua desafiador mesmo para modelos de ponta ajustados por instrução: o melhor sistema alcança apenas 61,8 Macro-F1 na detecção binária e 61,7 Macro-F1 na classificação de cinco classes. Em cenários de geração, vários modelos produzem frequentemente respostas fortemente validadoras ou de escalada em situações emocionalmente carregadas. Nossos achados destacam variações substanciais entre famílias de modelos e comportamentos conversacionais, ressaltando a importância de benchmarks multilingues enraizados culturalmente para avaliar sistemas de IA conversacional alinhados socialmente.

English

Large language models (LLMs) increasingly participate in emotionally sensitive social conversations, where responses may shift from balanced support toward excessive validation or escalatory alignment. Existing sycophancy research primarily focuses on factual agreement and instruction-following settings, leaving culturally grounded conversational sycophancy underexplored. We introduce BenSyc, the first benchmark for studying conversational sycophancy in Bengali social contexts. Starting from 11,840 Reddit posts and 170k comments collected from communities across Bangladesh and West Bengal, we construct a human-validated benchmark with binary labels and a fine-grained five-level taxonomy spanning Invalidation, Neutral, Support, Validation, and Escalation. We evaluate more than 15 open and proprietary LLMs on conversational alignment classification and response generation tasks. Results show that distinguishing empathetic support from reinforcement-oriented validation remains challenging even for frontier instruction-tuned models: the best system achieves only 61.8 Macro-F1 on binary detection and 61.7 Macro-F1 on five-class classification. In generation settings, several models frequently produce strongly validating or escalatory responses in emotionally charged situations. Our findings highlight substantial variation across model families and conversational behaviors, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.