MoReBench: Avaliando o Raciocínio Moral Procedural e Pluralístico em Modelos de Linguagem, Além dos Resultados
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
Autores: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
Resumo
À medida que os sistemas de IA avançam, dependemos mais deles para tomar decisões conosco e por nós. Para garantir que tais decisões estejam alinhadas com os valores humanos, é essencial que entendamos não apenas quais decisões eles tomam, mas também como chegam a essas decisões. Modelos de linguagem de raciocínio, que fornecem respostas finais e rastros de pensamento intermediário (parcialmente transparentes), apresentam uma oportunidade oportuna para estudar o raciocínio procedural da IA. Diferentemente de problemas de matemática e código, que frequentemente têm respostas objetivamente corretas, dilemas morais são um excelente campo de teste para avaliações focadas no processo, pois permitem múltiplas conclusões defensáveis. Para isso, apresentamos o MoReBench: 1.000 cenários morais, cada um acompanhado por um conjunto de critérios de rubrica que especialistas consideram essenciais para incluir (ou evitar) ao raciocinar sobre os cenários. O MoReBench contém mais de 23 mil critérios, incluindo a identificação de considerações morais, a ponderação de trade-offs e a oferta de recomendações acionáveis para cobrir casos em que a IA aconselha humanos em decisões morais, bem como toma decisões morais de forma autônoma. Separadamente, organizamos o MoReBench-Theory: 150 exemplos para testar se a IA pode raciocinar sob cinco grandes frameworks da ética normativa. Nossos resultados mostram que as leis de escala e os benchmarks existentes em tarefas de raciocínio matemático, de código e científico não conseguem prever as habilidades dos modelos em realizar raciocínio moral. Os modelos também mostram parcialidade em relação a frameworks morais específicos (por exemplo, Utilitarismo de Ato de Bentham e Deontologia Kantiana), o que pode ser um efeito colateral de paradigmas de treinamento populares. Juntos, esses benchmarks avançam a avaliação de raciocínio focada no processo em direção a uma IA mais segura e transparente.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.