MoReBench: Valutazione del Ragionamento Morale Procedurale e Pluralistico nei Modelli Linguistici, Oltre ai Risultati
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
Autori: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
Abstract
Man mano che i sistemi di IA progrediscono, ci affidiamo sempre più a loro per prendere decisioni con noi e per noi. Per garantire che tali decisioni siano allineate ai valori umani, è essenziale comprendere non solo quali decisioni prendono, ma anche come arrivano a tali decisioni. I modelli linguistici di ragionamento, che forniscono sia risposte finali che tracce di pensiero intermedie (parzialmente trasparenti), rappresentano un'opportunità tempestiva per studiare il ragionamento procedurale dell'IA. A differenza dei problemi di matematica e di codice, che spesso hanno risposte oggettivamente corrette, i dilemmi morali sono un terreno di prova eccellente per la valutazione focalizzata sul processo, poiché consentono conclusioni multiple difendibili. A tal fine, presentiamo MoReBench: 1.000 scenari morali, ciascuno associato a un insieme di criteri di valutazione che gli esperti considerano essenziali da includere (o evitare) quando si ragiona sugli scenari. MoReBench contiene oltre 23 mila criteri, tra cui l'identificazione di considerazioni morali, la valutazione di compromessi e la fornitura di raccomandazioni pratiche per coprire casi in cui l'IA consiglia decisioni morali agli esseri umani, nonché casi in cui prende decisioni morali in modo autonomo. Inoltre, abbiamo curato MoReBench-Theory: 150 esempi per testare se l'IA può ragionare secondo cinque principali framework dell'etica normativa. I nostri risultati mostrano che le leggi di scala e i benchmark esistenti su compiti di matematica, codice e ragionamento scientifico non riescono a prevedere le capacità dei modelli di eseguire ragionamenti morali. I modelli mostrano anche una parzialità verso specifici framework morali (ad esempio, l'Utilitarismo dell'Atto di Bentham e la Deontologia Kantiana), che potrebbero essere effetti collaterali dei paradigmi di addestramento più diffusi. Insieme, questi benchmark avanzano la valutazione del ragionamento focalizzata sul processo verso un'IA più sicura e trasparente.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.