彼らは恋人か友人か?英語と韓国語の対話における大規模言語モデルの社会的推論能力の評価
Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
October 21, 2025
著者: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Dogruoz, Najoung Kim, Alice Oh
cs.AI
要旨
大規模言語モデル(LLM)が人間とAIのインタラクションにおいてますます使用される中で、対人関係におけるそれらの社会的推論能力が重要となっています。本論文では、映画の脚本から収集された英語と韓国語の1,000対話からなるSCRIPTSデータセットを紹介します。このタスクでは、各対話における話者間の対人関係(例:友人、姉妹、恋人)を推論するモデルの社会的推論能力を評価します。各対話は、韓国と米国のネイティブ(または同等の)韓国語および英語話者によって、確率的な関係ラベル(Highly Likely, Less Likely, Unlikely)で注釈付けされています。9つのモデルを評価した結果、現在のプロプライエタリLLMは英語データセットで約75-80%の精度を達成していますが、韓国語での性能は58-69%に低下します。さらに顕著なことに、モデルは10-25%の回答においてUnlikelyな関係を選択しています。また、一般的な推論に有効な思考モデルや連鎖的思考プロンプトは、社会的推論にはほとんど効果がなく、時として社会的バイアスを増幅することがわかりました。これらの結果は、現在のLLMの社会的推論能力に重大な限界があることを明らかにし、社会的に意識した言語モデルの開発に向けた取り組みの必要性を強調しています。
English
As large language models (LLMs) are increasingly used in human-AI
interactions, their social reasoning capabilities in interpersonal contexts are
critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean,
sourced from movie scripts. The task involves evaluating models' social
reasoning capability to infer the interpersonal relationships (e.g., friends,
sisters, lovers) between speakers in each dialogue. Each dialogue is annotated
with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by
native (or equivalent) Korean and English speakers from Korea and the U.S.
Evaluating nine models on our task, current proprietary LLMs achieve around
75-80% on the English dataset, whereas their performance on Korean drops to
58-69%. More strikingly, models select Unlikely relationships in 10-25% of
their responses. Furthermore, we find that thinking models and chain-of-thought
prompting, effective for general reasoning, provide minimal benefits for social
reasoning and occasionally amplify social biases. Our findings reveal
significant limitations in current LLMs' social reasoning capabilities,
highlighting the need for efforts to develop socially-aware language models.