그들은 연인인가, 친구인가? 영어와 한국어 대화에서의 대형 언어 모델의 사회적 추론 능력 평가
Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
October 21, 2025
저자: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Dogruoz, Najoung Kim, Alice Oh
cs.AI
초록
대규모 언어 모델(LLM)이 인간-AI 상호작용에서 점점 더 많이 사용됨에 따라, 대인 관계 맥락에서의 사회적 추론 능력이 중요해지고 있다. 우리는 영화 대본에서 추출한 영어와 한국어로 구성된 1,000개의 대화 데이터셋인 SCRIPTS를 소개한다. 이 작업은 각 대화에서 화자 간의 대인 관계(예: 친구, 자매, 연인)를 추론하는 모델의 사회적 추론 능력을 평가하는 것이다. 각 대화는 한국과 미국의 원어민(또는 이에 상응하는) 화자들에 의해 확률적 관계 레이블(매우 가능성 있음, 덜 가능성 있음, 가능성 없음)로 주석 처리되었다. 우리의 작업에서 9개의 모델을 평가한 결과, 현재의 상용 LLM은 영어 데이터셋에서 약 75-80%의 성능을 보였으나, 한국어 데이터셋에서는 58-69%로 성능이 하락했다. 더욱 놀라운 점은, 모델들이 응답의 10-25%에서 '가능성 없음' 관계를 선택했다는 것이다. 또한, 일반적인 추론에 효과적인 사고 모델과 사고 사슬 프롬프팅이 사회적 추론에는 최소한의 이점만을 제공하며, 때로는 사회적 편향을 증폭시키는 것으로 나타났다. 우리의 연구 결과는 현재 LLM의 사회적 추론 능력에 상당한 한계가 있음을 보여주며, 사회적으로 인식된 언어 모델 개발을 위한 노력이 필요함을 강조한다.
English
As large language models (LLMs) are increasingly used in human-AI
interactions, their social reasoning capabilities in interpersonal contexts are
critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean,
sourced from movie scripts. The task involves evaluating models' social
reasoning capability to infer the interpersonal relationships (e.g., friends,
sisters, lovers) between speakers in each dialogue. Each dialogue is annotated
with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by
native (or equivalent) Korean and English speakers from Korea and the U.S.
Evaluating nine models on our task, current proprietary LLMs achieve around
75-80% on the English dataset, whereas their performance on Korean drops to
58-69%. More strikingly, models select Unlikely relationships in 10-25% of
their responses. Furthermore, we find that thinking models and chain-of-thought
prompting, effective for general reasoning, provide minimal benefits for social
reasoning and occasionally amplify social biases. Our findings reveal
significant limitations in current LLMs' social reasoning capabilities,
highlighting the need for efforts to develop socially-aware language models.