ChatPaper.aiChatPaper

CLASH: 다중 관점에서 고위험 딜레마 판단에 대한 언어 모델 평가

CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives

April 15, 2025
저자: Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
cs.AI

초록

상충하는 가치를 포함한 고위험 딜레마를 탐색하는 것은 인간에게도 어려운 과제이며, AI에게는 더욱 그러하다. 그럼에도 불구하고, 대규모 언어 모델(LLM)의 추론 능력을 평가한 기존 연구는 일상적인 시나리오에 국한되어 있었다. 이러한 격차를 해소하기 위해, 본 연구는 먼저 CLASH(Character perspective-based LLM Assessments in Situations with High-stakes)를 소개한다. 이는 345개의 고위험 딜레마와 다양한 가치를 반영한 3,795개의 개별 관점으로 구성된 신중하게 선별된 데이터셋이다. 특히, 우리는 CLASH를 설계함에 있어 기존 연구에서 누락된 가치 기반 의사결정 과정의 중요한 측면을 연구할 수 있도록 하였다. 이는 의사결정의 양가성과 심리적 불편함을 이해하고, 등장인물의 관점에서 가치의 시간적 변화를 포착하는 것을 포함한다. 10개의 오픈 및 클로즈드 프론티어 모델을 벤치마킹함으로써, 우리는 몇 가지 주요 발견을 도출했다. (1) GPT-4o와 Claude-Sonnet과 같은 가장 강력한 모델들조차도 의사결정이 양가적이어야 하는 상황을 식별하는 데 있어 50% 미만의 정확도를 보였으며, 명확한 시나리오에서는 훨씬 더 나은 성능을 보였다. (2) LLM은 인간이 표시한 심리적 불편함을 합리적으로 예측하지만, 가치 변화를 포함한 관점을 충분히 이해하지 못해 복잡한 가치에 대한 추론이 필요함을 나타냈다. (3) 우리의 실험은 또한 LLM의 가치 선호도와 주어진 가치에 대한 조종 가능성 사이에 상당한 상관관계가 있음을 보여주었다. (4) 마지막으로, LLM은 제3자 관점에서 가치 추론을 수행할 때, 1인칭 설정에 비해 더 큰 조종 가능성을 보였으나, 특정 가치 쌍은 1인칭 프레임에서 독특한 이점을 얻었다.
English
Navigating high-stakes dilemmas involving conflicting values is challenging even for humans, let alone for AI. Yet prior work in evaluating the reasoning capabilities of large language models (LLMs) in such situations has been limited to everyday scenarios. To close this gap, this work first introduces CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), a meticulously curated dataset consisting of 345 high-impact dilemmas along with 3,795 individual perspectives of diverse values. In particular, we design CLASH in a way to support the study of critical aspects of value-based decision-making processes which are missing from prior work, including understanding decision ambivalence and psychological discomfort as well as capturing the temporal shifts of values in characters' perspectives. By benchmarking 10 open and closed frontier models, we uncover several key findings. (1) Even the strongest models, such as GPT-4o and Claude-Sonnet, achieve less than 50% accuracy in identifying situations where the decision should be ambivalent, while they perform significantly better in clear-cut scenarios. (2) While LLMs reasonably predict psychological discomfort as marked by human, they inadequately comprehend perspectives involving value shifts, indicating a need for LLMs to reason over complex values. (3) Our experiments also reveal a significant correlation between LLMs' value preferences and their steerability towards a given value. (4) Finally, LLMs exhibit greater steerability when engaged in value reasoning from a third-party perspective, compared to a first-person setup, though certain value pairs benefit uniquely from the first-person framing.

Summary

AI-Generated Summary

PDF142April 21, 2025