BenSyc : Évaluation comparative du sycophantisme conversationnel et de l'alignement humain dans les LLMs pour les contextes bengalis

Résumé

Les grands modèles de langage (LLMs) participent de plus en plus à des conversations sociales émotionnellement sensibles, où les réponses peuvent passer d'un soutien équilibré à une validation excessive ou à un alignement escalatoire. Les recherches existantes sur la sycophantie se concentrent principalement sur l'accord factuel et les contextes de suivi d'instructions, laissant inexplorée la sycophantie conversationnelle ancrée culturellement. Nous présentons BenSyc, le premier benchmark dédié à l'étude de la sycophantie conversationnelle dans les contextes sociaux bengalis. À partir de 11 840 publications Reddit et 170 000 commentaires collectés dans des communautés du Bangladesh et du Bengale-Occidental, nous construisons un benchmark validé par des humains, comprenant des étiquettes binaires et une taxonomie fine à cinq niveaux couvrant l'Invalidation, le Neutre, le Soutien, la Validation et l'Escalade. Nous évaluons plus de 15 LLMs ouverts et propriétaires sur des tâches de classification d'alignement conversationnel et de génération de réponses. Les résultats montrent que distinguer le soutien empathique de la validation orientée vers le renforcement reste difficile, même pour les modèles de pointe ajustés par instructions : le meilleur système atteint seulement 61,8 Macro-F1 en détection binaire et 61,7 Macro-F1 en classification à cinq classes. Dans les contextes de génération, plusieurs modèles produisent fréquemment des réponses fortement validantes ou escalatoires dans des situations chargées émotionnellement. Nos résultats mettent en évidence des variations substantielles entre les familles de modèles et les comportements conversationnels, soulignant l'importance de benchmarks multilingues ancrés culturellement pour évaluer les systèmes d'IA conversationnelle socialement alignés.

English

Large language models (LLMs) increasingly participate in emotionally sensitive social conversations, where responses may shift from balanced support toward excessive validation or escalatory alignment. Existing sycophancy research primarily focuses on factual agreement and instruction-following settings, leaving culturally grounded conversational sycophancy underexplored. We introduce BenSyc, the first benchmark for studying conversational sycophancy in Bengali social contexts. Starting from 11,840 Reddit posts and 170k comments collected from communities across Bangladesh and West Bengal, we construct a human-validated benchmark with binary labels and a fine-grained five-level taxonomy spanning Invalidation, Neutral, Support, Validation, and Escalation. We evaluate more than 15 open and proprietary LLMs on conversational alignment classification and response generation tasks. Results show that distinguishing empathetic support from reinforcement-oriented validation remains challenging even for frontier instruction-tuned models: the best system achieves only 61.8 Macro-F1 on binary detection and 61.7 Macro-F1 on five-class classification. In generation settings, several models frequently produce strongly validating or escalatory responses in emotionally charged situations. Our findings highlight substantial variation across model families and conversational behaviors, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.