CLASH : Évaluation des modèles de langage sur leur capacité à juger des dilemmes à enjeux élevés à partir de perspectives multiples
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives
April 15, 2025
Auteurs: Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
cs.AI
Résumé
Naviguer dans des dilemmes à enjeux élevés impliquant des valeurs conflictuelles est un défi, même pour les humains, et encore plus pour l'IA. Pourtant, les travaux antérieurs visant à évaluer les capacités de raisonnement des grands modèles de langage (LLMs) dans de telles situations se sont limités à des scénarios quotidiens. Pour combler cette lacune, ce travail introduit d'abord CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), un ensemble de données méticuleusement élaboré comprenant 345 dilemmes à fort impact ainsi que 3 795 perspectives individuelles reflétant des valeurs diverses. En particulier, nous concevons CLASH de manière à soutenir l'étude d'aspects critiques des processus de prise de décision basés sur les valeurs, absents des travaux précédents, notamment la compréhension de l'ambivalence décisionnelle et de l'inconfort psychologique, ainsi que la capture des changements temporels des valeurs dans les perspectives des personnages. En évaluant 10 modèles ouverts et fermés, nous dévoilons plusieurs conclusions clés. (1) Même les modèles les plus performants, comme GPT-4o et Claude-Sonnet, atteignent moins de 50 % de précision dans l'identification des situations où la décision devrait être ambivalente, alors qu'ils obtiennent de bien meilleurs résultats dans des scénarios clairs. (2) Bien que les LLMs prédisent raisonnablement l'inconfort psychologique tel que marqué par les humains, ils comprennent insuffisamment les perspectives impliquant des changements de valeurs, indiquant un besoin pour les LLMs de raisonner sur des valeurs complexes. (3) Nos expériences révèlent également une corrélation significative entre les préférences de valeurs des LLMs et leur capacité à être orientés vers une valeur donnée. (4) Enfin, les LLMs montrent une plus grande capacité d'orientation lorsqu'ils raisonnent sur les valeurs à partir d'une perspective tierce, par rapport à une configuration à la première personne, bien que certaines paires de valeurs bénéficient uniquement du cadre à la première personne.
English
Navigating high-stakes dilemmas involving conflicting values is challenging
even for humans, let alone for AI. Yet prior work in evaluating the reasoning
capabilities of large language models (LLMs) in such situations has been
limited to everyday scenarios. To close this gap, this work first introduces
CLASH (Character perspective-based LLM Assessments in Situations with
High-stakes), a meticulously curated dataset consisting of 345 high-impact
dilemmas along with 3,795 individual perspectives of diverse values. In
particular, we design CLASH in a way to support the study of critical aspects
of value-based decision-making processes which are missing from prior work,
including understanding decision ambivalence and psychological discomfort as
well as capturing the temporal shifts of values in characters' perspectives. By
benchmarking 10 open and closed frontier models, we uncover several key
findings. (1) Even the strongest models, such as GPT-4o and Claude-Sonnet,
achieve less than 50% accuracy in identifying situations where the decision
should be ambivalent, while they perform significantly better in clear-cut
scenarios. (2) While LLMs reasonably predict psychological discomfort as marked
by human, they inadequately comprehend perspectives involving value shifts,
indicating a need for LLMs to reason over complex values. (3) Our experiments
also reveal a significant correlation between LLMs' value preferences and their
steerability towards a given value. (4) Finally, LLMs exhibit greater
steerability when engaged in value reasoning from a third-party perspective,
compared to a first-person setup, though certain value pairs benefit uniquely
from the first-person framing.Summary
AI-Generated Summary