MoReBench: Bewertung prozeduralen und pluralistischen moralischen Denkens in Sprachmodellen, mehr als nur Ergebnisse
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
papers.authors: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
papers.abstract
Mit dem Fortschritt von KI-Systemen verlassen wir uns zunehmend darauf, dass sie Entscheidungen mit uns und für uns treffen. Um sicherzustellen, dass solche Entscheidungen mit menschlichen Werten übereinstimmen, ist es unerlässlich, nicht nur zu verstehen, welche Entscheidungen sie treffen, sondern auch, wie sie zu diesen Entscheidungen gelangen. Reasoning-Sprachmodelle, die sowohl endgültige Antworten als auch (teilweise transparente) Zwischengedankenschritte liefern, bieten eine zeitgemäße Möglichkeit, das prozedurale Denken von KI zu untersuchen. Im Gegensatz zu mathematischen und Programmierproblemen, die oft objektiv richtige Antworten haben, sind moralische Dilemmata ein hervorragendes Testfeld für prozessorientierte Bewertungen, da sie mehrere vertretbare Schlussfolgerungen zulassen. Zu diesem Zweck stellen wir MoReBench vor: 1.000 moralische Szenarien, die jeweils mit einer Reihe von Bewertungskriterien gepaart sind, die Experten als wesentlich erachten, um sie bei der Argumentation über die Szenarien zu berücksichtigen (oder zu vermeiden). MoReBench enthält über 23.000 Kriterien, darunter die Identifizierung moralischer Überlegungen, das Abwägen von Kompromissen und das Geben umsetzbarer Empfehlungen, um Fälle abzudecken, in denen KI Menschen bei moralischen Entscheidungen berät oder moralische Entscheidungen autonom trifft. Zusätzlich haben wir MoReBench-Theory kuratiert: 150 Beispiele, um zu testen, ob KI unter fünf großen Rahmenwerken der normativen Ethik argumentieren kann. Unsere Ergebnisse zeigen, dass Skalierungsgesetze und bestehende Benchmarks für mathematische, Programmier- und wissenschaftliche Denkaufgaben nicht die Fähigkeiten von Modellen vorhersagen können, moralisches Denken zu leisten. Modelle zeigen auch eine Vorliebe für bestimmte moralische Rahmenwerke (z. B. Benthams Aktutilitarismus und Kants Deontologie), was Nebenwirkungen gängiger Trainingsparadigmen sein könnte. Zusammen fördern diese Benchmarks die prozessorientierte Bewertung des Denkens hin zu sichererer und transparenterer KI.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.