ChatPaper.aiChatPaper

MoReBench: 언어 모델의 절차적 및 다원적 도덕적 추론 평가, 결과 이상의 측면

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

October 18, 2025
저자: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI

초록

AI 시스템이 발전함에 따라, 우리는 그들과 함께 그리고 그들을 대신하여 결정을 내리는 데 점점 더 의존하게 되었습니다. 이러한 결정이 인간의 가치와 일치하도록 보장하기 위해서는, 그들이 어떤 결정을 내리는지뿐만 아니라 어떻게 그 결정에 이르는지도 이해하는 것이 필수적입니다. 최종 응답과 (부분적으로 투명한) 중간 사고 흔적을 모두 제공하는 추론 언어 모델은 AI의 절차적 추론을 연구할 수 있는 시의적절한 기회를 제공합니다. 객관적으로 정답이 있는 수학 및 코드 문제와 달리, 도덕적 딜레마는 여러 가지 방어 가능한 결론을 허용하기 때문에 과정 중심 평가를 위한 훌륭한 테스트베드입니다. 이를 위해 우리는 MoReBench를 제시합니다: 1,000개의 도덕적 시나리오와 각 시나리오에 대해 전문가들이 추론할 때 포함(또는 피해야)할 필수적인 기준 세트를 짝지은 것입니다. MoReBench에는 도덕적 고려사항 식별, 트레이드오프 평가, 실행 가능한 권장사항 제공 등 23,000개 이상의 기준이 포함되어 있어, AI가 인간에게 도덕적 결정을 조언하는 경우와 자율적으로 도덕적 결정을 내리는 경우를 모두 다룹니다. 별도로, 우리는 MoReBench-Theory를 큐레이션했습니다: AI가 규범 윤리학의 다섯 가지 주요 프레임워크 하에서 추론할 수 있는지 테스트하기 위한 150개의 예시입니다. 우리의 결과는 수학, 코드, 과학적 추론 작업에 대한 스케일링 법칙과 기존 벤치마크가 모델의 도덕적 추론 능력을 예측하는 데 실패한다는 것을 보여줍니다. 또한 모델은 특정 도덕적 프레임워크(예: 벤담의 행동 공리주의와 칸트의 의무론)에 편향을 보이는데, 이는 인기 있는 훈련 패러다임의 부작용일 수 있습니다. 이러한 벤치마크들은 함께 더 안전하고 투명한 AI를 위한 과정 중심 추론 평가를 발전시킵니다.
English
As AI systems progress, we rely more on them to make decisions with us and for us. To ensure that such decisions are aligned with human values, it is imperative for us to understand not only what decisions they make but also how they come to those decisions. Reasoning language models, which provide both final responses and (partially transparent) intermediate thinking traces, present a timely opportunity to study AI procedural reasoning. Unlike math and code problems which often have objectively correct answers, moral dilemmas are an excellent testbed for process-focused evaluation because they allow for multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral scenarios, each paired with a set of rubric criteria that experts consider essential to include (or avoid) when reasoning about the scenarios. MoReBench contains over 23 thousand criteria including identifying moral considerations, weighing trade-offs, and giving actionable recommendations to cover cases on AI advising humans moral decisions as well as making moral decisions autonomously. Separately, we curate MoReBench-Theory: 150 examples to test whether AI can reason under five major frameworks in normative ethics. Our results show that scaling laws and existing benchmarks on math, code, and scientific reasoning tasks fail to predict models' abilities to perform moral reasoning. Models also show partiality towards specific moral frameworks (e.g., Benthamite Act Utilitarianism and Kantian Deontology), which might be side effects of popular training paradigms. Together, these benchmarks advance process-focused reasoning evaluation towards safer and more transparent AI.
PDF02October 22, 2025