CLASH: Valutazione dei Modelli Linguistici nel Giudicare Dilemmi ad Alto Rischio da Multiple Prospettive
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives
April 15, 2025
Autori: Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
cs.AI
Abstract
Affrontare dilemmi ad alto rischio che coinvolgono valori in conflitto è una sfida
persino per gli esseri umani, figuriamoci per l'IA. Tuttavia, i precedenti lavori sulla valutazione delle capacità
di ragionamento dei modelli linguistici di grandi dimensioni (LLM) in tali situazioni si sono
limitati a scenari quotidiani. Per colmare questa lacuna, questo lavoro introduce innanzitutto
CLASH (Character perspective-based LLM Assessments in Situations with
High-stakes), un dataset accuratamente curato composto da 345 dilemmi ad alto impatto
insieme a 3.795 prospettive individuali basate su valori diversi. In
particolare, abbiamo progettato CLASH in modo da supportare lo studio di aspetti critici
dei processi decisionali basati sui valori che mancano nei lavori precedenti,
tra cui la comprensione dell'ambivalenza decisionale e del disagio psicologico,
nonché la cattura dei cambiamenti temporali dei valori nelle prospettive dei personaggi.
Valutando 10 modelli open e closed frontier, abbiamo scoperto diversi risultati chiave.
(1) Anche i modelli più potenti, come GPT-4o e Claude-Sonnet,
raggiungono meno del 50% di accuratezza nell'identificare situazioni in cui la decisione
dovrebbe essere ambivalente, mentre performano significativamente meglio in scenari chiari.
(2) Sebbene gli LLM prevedano ragionevolmente il disagio psicologico come indicato dagli esseri umani,
comprendono in modo inadeguato le prospettive che coinvolgono cambiamenti di valori,
indicando la necessità per gli LLM di ragionare su valori complessi.
(3) I nostri esperimenti rivelano anche una significativa correlazione tra le preferenze di valori degli LLM
e la loro capacità di essere orientati verso un determinato valore.
(4) Infine, gli LLM mostrano una maggiore capacità di orientamento quando sono impegnati
nel ragionamento sui valori da una prospettiva di terza parte, rispetto a una configurazione in prima persona,
sebbene alcune coppie di valori traggano un vantaggio unico dall'inquadratura in prima persona.
English
Navigating high-stakes dilemmas involving conflicting values is challenging
even for humans, let alone for AI. Yet prior work in evaluating the reasoning
capabilities of large language models (LLMs) in such situations has been
limited to everyday scenarios. To close this gap, this work first introduces
CLASH (Character perspective-based LLM Assessments in Situations with
High-stakes), a meticulously curated dataset consisting of 345 high-impact
dilemmas along with 3,795 individual perspectives of diverse values. In
particular, we design CLASH in a way to support the study of critical aspects
of value-based decision-making processes which are missing from prior work,
including understanding decision ambivalence and psychological discomfort as
well as capturing the temporal shifts of values in characters' perspectives. By
benchmarking 10 open and closed frontier models, we uncover several key
findings. (1) Even the strongest models, such as GPT-4o and Claude-Sonnet,
achieve less than 50% accuracy in identifying situations where the decision
should be ambivalent, while they perform significantly better in clear-cut
scenarios. (2) While LLMs reasonably predict psychological discomfort as marked
by human, they inadequately comprehend perspectives involving value shifts,
indicating a need for LLMs to reason over complex values. (3) Our experiments
also reveal a significant correlation between LLMs' value preferences and their
steerability towards a given value. (4) Finally, LLMs exhibit greater
steerability when engaged in value reasoning from a third-party perspective,
compared to a first-person setup, though certain value pairs benefit uniquely
from the first-person framing.Summary
AI-Generated Summary