MoReBench : Évaluer le raisonnement moral procédural et pluraliste dans les modèles de langage, au-delà des résultats
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
papers.authors: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
papers.abstract
À mesure que les systèmes d'IA progressent, nous nous appuyons davantage sur eux pour prendre des décisions avec nous et pour nous. Pour garantir que ces décisions soient alignées avec les valeurs humaines, il est essentiel de comprendre non seulement quelles décisions ils prennent, mais aussi comment ils parviennent à ces décisions. Les modèles de langage à raisonnement, qui fournissent à la fois des réponses finales et des traces de pensée intermédiaires (partiellement transparentes), offrent une opportunité opportune pour étudier le raisonnement procédural de l'IA. Contrairement aux problèmes de mathématiques et de code qui ont souvent des réponses objectivement correctes, les dilemmes moraux constituent un excellent terrain d'essai pour une évaluation axée sur le processus, car ils permettent plusieurs conclusions défendables. Pour ce faire, nous présentons MoReBench : 1 000 scénarios moraux, chacun associé à un ensemble de critères de grille d'évaluation que les experts considèrent essentiels à inclure (ou à éviter) lors du raisonnement sur ces scénarios. MoReBench contient plus de 23 000 critères, notamment l'identification des considérations morales, la pondération des compromis et la formulation de recommandations actionnables pour couvrir les cas où l'IA conseille les humains dans leurs décisions morales ainsi que ceux où elle prend des décisions morales de manière autonome. Par ailleurs, nous avons constitué MoReBench-Theory : 150 exemples pour tester si l'IA peut raisonner selon cinq grands cadres de l'éthique normative. Nos résultats montrent que les lois d'échelle et les benchmarks existants sur les tâches de raisonnement mathématique, de code et scientifique ne permettent pas de prédire les capacités des modèles à effectuer un raisonnement moral. Les modèles montrent également une partialité envers des cadres moraux spécifiques (par exemple, l'utilitarisme d'acte de Bentham et la déontologie kantienne), ce qui pourrait être un effet secondaire des paradigmes d'entraînement populaires. Ensemble, ces benchmarks font progresser l'évaluation du raisonnement axée sur le processus vers une IA plus sûre et plus transparente.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.