ChatPaper.aiChatPaper

CLASH : Évaluation des modèles de langage sur leur capacité à juger des dilemmes à enjeux élevés à partir de perspectives multiples

CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives

April 15, 2025
Auteurs: Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
cs.AI

Résumé

Naviguer dans des dilemmes à enjeux élevés impliquant des valeurs conflictuelles est un défi, même pour les humains, et encore plus pour l'IA. Pourtant, les travaux antérieurs visant à évaluer les capacités de raisonnement des grands modèles de langage (LLMs) dans de telles situations se sont limités à des scénarios quotidiens. Pour combler cette lacune, ce travail introduit d'abord CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), un ensemble de données méticuleusement élaboré comprenant 345 dilemmes à fort impact ainsi que 3 795 perspectives individuelles reflétant des valeurs diverses. En particulier, nous concevons CLASH de manière à soutenir l'étude d'aspects critiques des processus de prise de décision basés sur les valeurs, absents des travaux précédents, notamment la compréhension de l'ambivalence décisionnelle et de l'inconfort psychologique, ainsi que la capture des changements temporels des valeurs dans les perspectives des personnages. En évaluant 10 modèles ouverts et fermés, nous dévoilons plusieurs conclusions clés. (1) Même les modèles les plus performants, comme GPT-4o et Claude-Sonnet, atteignent moins de 50 % de précision dans l'identification des situations où la décision devrait être ambivalente, alors qu'ils obtiennent de bien meilleurs résultats dans des scénarios clairs. (2) Bien que les LLMs prédisent raisonnablement l'inconfort psychologique tel que marqué par les humains, ils comprennent insuffisamment les perspectives impliquant des changements de valeurs, indiquant un besoin pour les LLMs de raisonner sur des valeurs complexes. (3) Nos expériences révèlent également une corrélation significative entre les préférences de valeurs des LLMs et leur capacité à être orientés vers une valeur donnée. (4) Enfin, les LLMs montrent une plus grande capacité d'orientation lorsqu'ils raisonnent sur les valeurs à partir d'une perspective tierce, par rapport à une configuration à la première personne, bien que certaines paires de valeurs bénéficient uniquement du cadre à la première personne.
English
Navigating high-stakes dilemmas involving conflicting values is challenging even for humans, let alone for AI. Yet prior work in evaluating the reasoning capabilities of large language models (LLMs) in such situations has been limited to everyday scenarios. To close this gap, this work first introduces CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), a meticulously curated dataset consisting of 345 high-impact dilemmas along with 3,795 individual perspectives of diverse values. In particular, we design CLASH in a way to support the study of critical aspects of value-based decision-making processes which are missing from prior work, including understanding decision ambivalence and psychological discomfort as well as capturing the temporal shifts of values in characters' perspectives. By benchmarking 10 open and closed frontier models, we uncover several key findings. (1) Even the strongest models, such as GPT-4o and Claude-Sonnet, achieve less than 50% accuracy in identifying situations where the decision should be ambivalent, while they perform significantly better in clear-cut scenarios. (2) While LLMs reasonably predict psychological discomfort as marked by human, they inadequately comprehend perspectives involving value shifts, indicating a need for LLMs to reason over complex values. (3) Our experiments also reveal a significant correlation between LLMs' value preferences and their steerability towards a given value. (4) Finally, LLMs exhibit greater steerability when engaged in value reasoning from a third-party perspective, compared to a first-person setup, though certain value pairs benefit uniquely from the first-person framing.

Summary

AI-Generated Summary

PDF142April 21, 2025