ChatPaper.aiChatPaper

Sont-ils amants ou amis ? Évaluation du raisonnement social des LLM dans les dialogues en anglais et en coréen

Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues

October 21, 2025
papers.authors: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Dogruoz, Najoung Kim, Alice Oh
cs.AI

papers.abstract

Alors que les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans les interactions humain-IA, leurs capacités de raisonnement social dans des contextes interpersonnels sont cruciales. Nous présentons SCRIPTS, un ensemble de données de 1 000 dialogues en anglais et en coréen, extraits de scripts de films. La tâche consiste à évaluer la capacité des modèles à raisonner socialement pour déduire les relations interpersonnelles (par exemple, amis, sœurs, amants) entre les locuteurs dans chaque dialogue. Chaque dialogue est annoté avec des étiquettes relationnelles probabilistes (Très Probable, Moins Probable, Peu Probable) par des locuteurs natifs (ou équivalents) coréens et anglais originaires de Corée et des États-Unis. En évaluant neuf modèles sur notre tâche, les LLMs propriétaires actuels atteignent environ 75-80 % sur l'ensemble de données en anglais, tandis que leur performance en coréen chute à 58-69 %. Plus frappant encore, les modèles sélectionnent des relations Peu Probables dans 10 à 25 % de leurs réponses. De plus, nous constatons que les modèles de pensée et l'incitation en chaîne de pensée, efficaces pour le raisonnement général, apportent des bénéfices minimes pour le raisonnement social et amplifient parfois les biais sociaux. Nos résultats révèlent des limitations significatives dans les capacités de raisonnement social des LLMs actuels, soulignant la nécessité de développer des modèles de langage socialement conscients.
English
As large language models (LLMs) are increasingly used in human-AI interactions, their social reasoning capabilities in interpersonal contexts are critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean, sourced from movie scripts. The task involves evaluating models' social reasoning capability to infer the interpersonal relationships (e.g., friends, sisters, lovers) between speakers in each dialogue. Each dialogue is annotated with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by native (or equivalent) Korean and English speakers from Korea and the U.S. Evaluating nine models on our task, current proprietary LLMs achieve around 75-80% on the English dataset, whereas their performance on Korean drops to 58-69%. More strikingly, models select Unlikely relationships in 10-25% of their responses. Furthermore, we find that thinking models and chain-of-thought prompting, effective for general reasoning, provide minimal benefits for social reasoning and occasionally amplify social biases. Our findings reveal significant limitations in current LLMs' social reasoning capabilities, highlighting the need for efforts to develop socially-aware language models.
PDF61October 23, 2025