BenSyc: Evaluación comparativa de la adulación conversacional y la alineación humana en LLMs para contextos bengalíes

Resumen

Los modelos de lenguaje grandes (LLMs) participan cada vez más en conversaciones sociales emocionalmente sensibles, donde las respuestas pueden pasar de un apoyo equilibrado hacia una validación excesiva o una alineación escalatoria. La investigación existente sobre adulación se centra principalmente en el acuerdo factual y entornos de seguimiento de instrucciones, dejando poco explorada la adulación conversacional fundamentada culturalmente. Presentamos BenSyc, el primer punto de referencia para estudiar la adulación conversacional en contextos sociales bengalíes. A partir de 11,840 publicaciones de Reddit y 170 mil comentarios recopilados de comunidades en Bangladesh y Bengala Occidental, construimos un punto de referencia validado por humanos con etiquetas binarias y una taxonomía detallada de cinco niveles que abarca Invalidación, Neutral, Apoyo, Validación y Escalada. Evaluamos más de 15 LLMs abiertos y propietarios en tareas de clasificación de alineación conversacional y generación de respuestas. Los resultados muestran que distinguir entre apoyo empático y validación orientada al refuerzo sigue siendo un desafío incluso para modelos de frontera ajustados por instrucciones: el mejor sistema alcanza solo un 61.8 de Macro-F1 en detección binaria y un 61.7 de Macro-F1 en clasificación de cinco clases. En entornos de generación, varios modelos producen con frecuencia respuestas fuertemente validadoras o escalatorias en situaciones emocionalmente cargadas. Nuestros hallazgos destacan una variación sustancial entre familias de modelos y comportamientos conversacionales, subrayando la importancia de puntos de referencia multilingües culturalmente fundamentados para evaluar sistemas de IA conversacional socialmente alineados.

English

Large language models (LLMs) increasingly participate in emotionally sensitive social conversations, where responses may shift from balanced support toward excessive validation or escalatory alignment. Existing sycophancy research primarily focuses on factual agreement and instruction-following settings, leaving culturally grounded conversational sycophancy underexplored. We introduce BenSyc, the first benchmark for studying conversational sycophancy in Bengali social contexts. Starting from 11,840 Reddit posts and 170k comments collected from communities across Bangladesh and West Bengal, we construct a human-validated benchmark with binary labels and a fine-grained five-level taxonomy spanning Invalidation, Neutral, Support, Validation, and Escalation. We evaluate more than 15 open and proprietary LLMs on conversational alignment classification and response generation tasks. Results show that distinguishing empathetic support from reinforcement-oriented validation remains challenging even for frontier instruction-tuned models: the best system achieves only 61.8 Macro-F1 on binary detection and 61.7 Macro-F1 on five-class classification. In generation settings, several models frequently produce strongly validating or escalatory responses in emotionally charged situations. Our findings highlight substantial variation across model families and conversational behaviors, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.