ChatPaper.aiChatPaper

MoReBench:言語モデルにおける手続き的かつ多元的な道徳的推論の評価 - 結果以上の視点から

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

October 18, 2025
著者: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI

要旨

AIシステムが進化するにつれ、私たちは意思決定においてAIに依存する度合いを増しています。そのような意思決定が人間の価値観と整合することを保証するためには、AIがどのような決定を下すかだけでなく、どのようにその決定に至ったかを理解することが不可欠です。推論言語モデルは、最終的な回答と(部分的に透明な)中間的な思考の痕跡を提供するため、AIの手続き的推論を研究するのに適した機会を提供します。数学やコードの問題には客観的に正しい答えが存在することが多いのに対し、道徳的ジレンマは複数の正当化可能な結論が存在するため、プロセス重視の評価を行うのに最適なテストベッドとなります。これを実現するため、私たちはMoReBenchを提示します:1,000の道徳的シナリオと、各シナリオについて専門家が推論時に含める(または避ける)べきと考える必須のルーブリック基準をペアにしたものです。MoReBenchには、道徳的考慮事項の特定、トレードオフの検討、実行可能な推奨事項の提供など、AIが人間に道徳的決定を助言する場合や自律的に道徳的決定を行う場合をカバーする23,000以上の基準が含まれています。また別途、MoReBench-Theoryとして、AIが規範倫理学の5つの主要なフレームワーク下で推論できるかをテストする150の例をキュレーションしました。私たちの結果は、スケーリング則や数学、コード、科学的推論タスクに関する既存のベンチマークが、モデルの道徳的推論能力を予測するのに失敗することを示しています。また、モデルは特定の道徳的フレームワーク(例えばベンサム流の行為功利主義やカントの義務論)に対して偏りを示しており、これは一般的なトレーニングパラダイムの副作用である可能性があります。これらのベンチマークは、より安全で透明性の高いAIに向けたプロセス重視の推論評価を前進させるものです。
English
As AI systems progress, we rely more on them to make decisions with us and for us. To ensure that such decisions are aligned with human values, it is imperative for us to understand not only what decisions they make but also how they come to those decisions. Reasoning language models, which provide both final responses and (partially transparent) intermediate thinking traces, present a timely opportunity to study AI procedural reasoning. Unlike math and code problems which often have objectively correct answers, moral dilemmas are an excellent testbed for process-focused evaluation because they allow for multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral scenarios, each paired with a set of rubric criteria that experts consider essential to include (or avoid) when reasoning about the scenarios. MoReBench contains over 23 thousand criteria including identifying moral considerations, weighing trade-offs, and giving actionable recommendations to cover cases on AI advising humans moral decisions as well as making moral decisions autonomously. Separately, we curate MoReBench-Theory: 150 examples to test whether AI can reason under five major frameworks in normative ethics. Our results show that scaling laws and existing benchmarks on math, code, and scientific reasoning tasks fail to predict models' abilities to perform moral reasoning. Models also show partiality towards specific moral frameworks (e.g., Benthamite Act Utilitarianism and Kantian Deontology), which might be side effects of popular training paradigms. Together, these benchmarks advance process-focused reasoning evaluation towards safer and more transparent AI.
PDF02October 22, 2025