Sind sie Liebende oder Freunde? Bewertung des sozialen Denkens von LLMs in englischen und koreanischen Dialogen
Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
October 21, 2025
papers.authors: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Dogruoz, Najoung Kim, Alice Oh
cs.AI
papers.abstract
Da große Sprachmodelle (LLMs) zunehmend in Mensch-KI-Interaktionen eingesetzt werden, sind ihre sozialen Denkfähigkeiten in zwischenmenschlichen Kontexten von entscheidender Bedeutung. Wir stellen SCRIPTS vor, einen Datensatz mit 1.000 Dialogen in Englisch und Koreanisch, der aus Filmskripten stammt. Die Aufgabe besteht darin, die Fähigkeit der Modelle zur sozialen Schlussfolgerung zu bewerten, um die zwischenmenschlichen Beziehungen (z. B. Freunde, Schwestern, Liebende) zwischen den Sprechern in jedem Dialog zu erschließen. Jeder Dialog wurde von muttersprachlichen (oder gleichwertigen) Koreanisch- und Englischsprechern aus Korea und den USA mit probabilistischen Beziehungslabels („Highly Likely“, „Less Likely“, „Unlikely“) annotiert. Bei der Bewertung von neun Modellen in unserer Aufgabe erreichen aktuelle proprietäre LLMs etwa 75–80 % auf dem englischen Datensatz, während ihre Leistung auf Koreanisch auf 58–69 % sinkt. Noch auffälliger ist, dass die Modelle in 10–25 % ihrer Antworten „Unlikely“-Beziehungen auswählen. Darüber hinaus stellen wir fest, dass Denkmodelle und Chain-of-Thought-Prompting, die für allgemeines Schlussfolgern effektiv sind, nur minimale Vorteile für soziales Denken bieten und gelegentlich soziale Vorurteile verstärken. Unsere Ergebnisse zeigen erhebliche Einschränkungen in den sozialen Denkfähigkeiten aktueller LLMs und unterstreichen die Notwendigkeit, sozial bewusste Sprachmodelle zu entwickeln.
English
As large language models (LLMs) are increasingly used in human-AI
interactions, their social reasoning capabilities in interpersonal contexts are
critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean,
sourced from movie scripts. The task involves evaluating models' social
reasoning capability to infer the interpersonal relationships (e.g., friends,
sisters, lovers) between speakers in each dialogue. Each dialogue is annotated
with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by
native (or equivalent) Korean and English speakers from Korea and the U.S.
Evaluating nine models on our task, current proprietary LLMs achieve around
75-80% on the English dataset, whereas their performance on Korean drops to
58-69%. More strikingly, models select Unlikely relationships in 10-25% of
their responses. Furthermore, we find that thinking models and chain-of-thought
prompting, effective for general reasoning, provide minimal benefits for social
reasoning and occasionally amplify social biases. Our findings reveal
significant limitations in current LLMs' social reasoning capabilities,
highlighting the need for efforts to develop socially-aware language models.