MoReBench: Het evalueren van procedureel en pluralistisch moreel redeneren in taalmodellen, meer dan alleen uitkomsten
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
Auteurs: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
Samenvatting
Naarmate AI-systemen zich verder ontwikkelen, vertrouwen we er steeds meer op om beslissingen met ons en voor ons te nemen. Om ervoor te zorgen dat deze beslissingen in lijn zijn met menselijke waarden, is het essentieel dat we niet alleen begrijpen welke beslissingen ze nemen, maar ook hoe ze tot die beslissingen komen. Redenerende taalmodelen, die zowel eindantwoorden als (gedeeltelijk transparante) tussenliggende denksporen bieden, bieden een tijdige mogelijkheid om procedureel redeneren van AI te bestuderen. In tegenstelling tot wiskunde- en codeproblemen, die vaak objectief correcte antwoorden hebben, zijn morele dilemma's een uitstekend testgebied voor procesgerichte evaluatie omdat ze ruimte bieden voor meerdere verdedigbare conclusies. Om dit te faciliteren, presenteren we MoReBench: 1.000 morele scenario's, elk gekoppeld aan een set rubriccriteria die experts essentieel achten om te includeren (of te vermijden) bij het redeneren over de scenario's. MoReBench bevat meer dan 23 duizend criteria, waaronder het identificeren van morele overwegingen, het afwegen van afwegingen en het geven van actiegerichte aanbevelingen om gevallen te dekken waarin AI mensen adviseert bij morele beslissingen, evenals het autonoom nemen van morele beslissingen. Daarnaast hebben we MoReBench-Theory samengesteld: 150 voorbeelden om te testen of AI kan redeneren volgens vijf grote kaders in de normatieve ethiek. Onze resultaten laten zien dat schaalwetten en bestaande benchmarks voor wiskunde-, code- en wetenschappelijk redeneertaken niet in staat zijn om de vaardigheden van modellen om moreel te redeneren te voorspellen. Modellen vertonen ook partijdigheid ten opzichte van specifieke morele kaders (bijv. Benthamiaans Act-Utilitarisme en Kantiaanse Deontologie), wat bijwerkingen kunnen zijn van populaire trainingsparadigma's. Samen bevorderen deze benchmarks procesgerichte redeneerevaluatie richting veiligere en transparantere AI.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.