BenSyc: Benchmarking konversationaler Unterwürfigkeit und menschlicher Ausrichtung in großen Sprachmodellen für bengalische Kontexte

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) nehmen zunehmend an emotional sensiblen sozialen Gesprächen teil, wobei Antworten von einer ausgewogenen Unterstützung hin zu übermäßiger Validierung oder eskalierender Ausrichtung abweichen können. Die bestehende Sycophancy-Forschung konzentriert sich hauptsächlich auf faktische Übereinstimmung und Anweisungsbefolgungsszenarien, während kulturell verankerte Gesprächs-Sycophancy kaum untersucht ist. Wir stellen BenSyc vor, die erste Benchmark zur Untersuchung von Gesprächs-Sycophancy in bengalischen sozialen Kontexten. Ausgehend von 11.840 Reddit-Beiträgen und 170.000 Kommentaren aus Communities in Bangladesch und Westbengalen konstruieren wir eine human-validierte Benchmark mit binären Labels und einer feinkörnigen fünfteiligen Taxonomie, die Invalidierung, Neutralität, Unterstützung, Validierung und Eskalation umfasst. Wir evaluieren mehr als 15 offene und proprietäre LLMs hinsichtlich der Klassifikation der Gesprächsausrichtung und Aufgaben zur Antwortgenerierung. Die Ergebnisse zeigen, dass die Unterscheidung zwischen empathischer Unterstützung und verstärkungsorientierter Validierung selbst für moderne instruktionsabgestimmte Modelle eine Herausforderung darstellt: Das beste System erreicht lediglich 61,8 Macro-F1 bei der binären Erkennung und 61,7 Macro-F1 bei der Fünf-Klassen-Klassifikation. Bei Generierungsszenarien produzieren mehrere Modelle in emotional aufgeladenen Situationen häufig stark validierende oder eskalierende Antworten. Unsere Ergebnisse verdeutlichen erhebliche Unterschiede zwischen Modellfamilien und Gesprächsverhalten und unterstreichen die Bedeutung kulturell verankerter multilingualer Benchmarks für die Evaluierung sozial ausgerichteter KI-Konversationssysteme.

English

Large language models (LLMs) increasingly participate in emotionally sensitive social conversations, where responses may shift from balanced support toward excessive validation or escalatory alignment. Existing sycophancy research primarily focuses on factual agreement and instruction-following settings, leaving culturally grounded conversational sycophancy underexplored. We introduce BenSyc, the first benchmark for studying conversational sycophancy in Bengali social contexts. Starting from 11,840 Reddit posts and 170k comments collected from communities across Bangladesh and West Bengal, we construct a human-validated benchmark with binary labels and a fine-grained five-level taxonomy spanning Invalidation, Neutral, Support, Validation, and Escalation. We evaluate more than 15 open and proprietary LLMs on conversational alignment classification and response generation tasks. Results show that distinguishing empathetic support from reinforcement-oriented validation remains challenging even for frontier instruction-tuned models: the best system achieves only 61.8 Macro-F1 on binary detection and 61.7 Macro-F1 on five-class classification. In generation settings, several models frequently produce strongly validating or escalatory responses in emotionally charged situations. Our findings highlight substantial variation across model families and conversational behaviors, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.