CLASH: Valutazione dei Modelli Linguistici nel Giudicare Dilemmi ad Alto Rischio da Multiple Prospettive

Abstract

Affrontare dilemmi ad alto rischio che coinvolgono valori in conflitto è una sfida persino per gli esseri umani, figuriamoci per l'IA. Tuttavia, i precedenti lavori sulla valutazione delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) in tali situazioni si sono limitati a scenari quotidiani. Per colmare questa lacuna, questo lavoro introduce innanzitutto CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), un dataset accuratamente curato composto da 345 dilemmi ad alto impatto insieme a 3.795 prospettive individuali basate su valori diversi. In particolare, abbiamo progettato CLASH in modo da supportare lo studio di aspetti critici dei processi decisionali basati sui valori che mancano nei lavori precedenti, tra cui la comprensione dell'ambivalenza decisionale e del disagio psicologico, nonché la cattura dei cambiamenti temporali dei valori nelle prospettive dei personaggi. Valutando 10 modelli open e closed frontier, abbiamo scoperto diversi risultati chiave. (1) Anche i modelli più potenti, come GPT-4o e Claude-Sonnet, raggiungono meno del 50% di accuratezza nell'identificare situazioni in cui la decisione dovrebbe essere ambivalente, mentre performano significativamente meglio in scenari chiari. (2) Sebbene gli LLM prevedano ragionevolmente il disagio psicologico come indicato dagli esseri umani, comprendono in modo inadeguato le prospettive che coinvolgono cambiamenti di valori, indicando la necessità per gli LLM di ragionare su valori complessi. (3) I nostri esperimenti rivelano anche una significativa correlazione tra le preferenze di valori degli LLM e la loro capacità di essere orientati verso un determinato valore. (4) Infine, gli LLM mostrano una maggiore capacità di orientamento quando sono impegnati nel ragionamento sui valori da una prospettiva di terza parte, rispetto a una configurazione in prima persona, sebbene alcune coppie di valori traggano un vantaggio unico dall'inquadratura in prima persona.

English

Navigating high-stakes dilemmas involving conflicting values is challenging even for humans, let alone for AI. Yet prior work in evaluating the reasoning capabilities of large language models (LLMs) in such situations has been limited to everyday scenarios. To close this gap, this work first introduces CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), a meticulously curated dataset consisting of 345 high-impact dilemmas along with 3,795 individual perspectives of diverse values. In particular, we design CLASH in a way to support the study of critical aspects of value-based decision-making processes which are missing from prior work, including understanding decision ambivalence and psychological discomfort as well as capturing the temporal shifts of values in characters' perspectives. By benchmarking 10 open and closed frontier models, we uncover several key findings. (1) Even the strongest models, such as GPT-4o and Claude-Sonnet, achieve less than 50% accuracy in identifying situations where the decision should be ambivalent, while they perform significantly better in clear-cut scenarios. (2) While LLMs reasonably predict psychological discomfort as marked by human, they inadequately comprehend perspectives involving value shifts, indicating a need for LLMs to reason over complex values. (3) Our experiments also reveal a significant correlation between LLMs' value preferences and their steerability towards a given value. (4) Finally, LLMs exhibit greater steerability when engaged in value reasoning from a third-party perspective, compared to a first-person setup, though certain value pairs benefit uniquely from the first-person framing.

CLASH: Valutazione dei Modelli Linguistici nel Giudicare Dilemmi ad Alto Rischio da Multiple Prospettive

CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives

Abstract

Support