Sono amanti o amici? Valutazione del ragionamento sociale dei modelli linguistici nei dialoghi in inglese e coreano
Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
October 21, 2025
Autori: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Dogruoz, Najoung Kim, Alice Oh
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più utilizzati nelle interazioni uomo-IA, le loro capacità di ragionamento sociale in contesti interpersonali diventano cruciali. Introduciamo SCRIPTS, un dataset di 1.000 dialoghi in inglese e coreano, tratti da sceneggiature cinematografiche. Il compito consiste nel valutare la capacità di ragionamento sociale dei modelli per dedurre le relazioni interpersonali (ad esempio, amici, sorelle, amanti) tra i parlanti in ciascun dialogo. Ogni dialogo è annotato con etichette relazionali probabilistiche (Molto Probabile, Meno Probabile, Improbabile) da parlanti nativi (o equivalenti) di coreano e inglese provenienti dalla Corea e dagli Stati Uniti. Valutando nove modelli sul nostro compito, gli attuali LLM proprietari raggiungono circa il 75-80% sul dataset in inglese, mentre le loro prestazioni sul coreano scendono al 58-69%. Ancora più sorprendente, i modelli selezionano relazioni Improbabili nel 10-25% delle loro risposte. Inoltre, scopriamo che i modelli di pensiero e il prompting a catena di pensiero, efficaci per il ragionamento generale, offrono benefici minimi per il ragionamento sociale e occasionalmente amplificano i pregiudizi sociali. I nostri risultati rivelano significative limitazioni nelle capacità di ragionamento sociale degli attuali LLM, evidenziando la necessità di sforzi per sviluppare modelli linguistici socialmente consapevoli.
English
As large language models (LLMs) are increasingly used in human-AI
interactions, their social reasoning capabilities in interpersonal contexts are
critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean,
sourced from movie scripts. The task involves evaluating models' social
reasoning capability to infer the interpersonal relationships (e.g., friends,
sisters, lovers) between speakers in each dialogue. Each dialogue is annotated
with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by
native (or equivalent) Korean and English speakers from Korea and the U.S.
Evaluating nine models on our task, current proprietary LLMs achieve around
75-80% on the English dataset, whereas their performance on Korean drops to
58-69%. More strikingly, models select Unlikely relationships in 10-25% of
their responses. Furthermore, we find that thinking models and chain-of-thought
prompting, effective for general reasoning, provide minimal benefits for social
reasoning and occasionally amplify social biases. Our findings reveal
significant limitations in current LLMs' social reasoning capabilities,
highlighting the need for efforts to develop socially-aware language models.