MoReBench: Evaluación del razonamiento moral procedimental y pluralista en modelos de lenguaje, más allá de los resultados
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
Autores: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
Resumen
A medida que los sistemas de IA avanzan, dependemos más de ellos para tomar decisiones con nosotros y por nosotros. Para garantizar que dichas decisiones estén alineadas con los valores humanos, es imperativo que entendamos no solo qué decisiones toman, sino también cómo llegan a esas decisiones. Los modelos de lenguaje de razonamiento, que proporcionan respuestas finales y trazas de pensamiento intermedias (parcialmente transparentes), presentan una oportunidad oportuna para estudiar el razonamiento procedimental de la IA. A diferencia de los problemas de matemáticas y código, que a menudo tienen respuestas objetivamente correctas, los dilemas morales son un excelente campo de prueba para la evaluación centrada en el proceso porque permiten múltiples conclusiones defendibles. Para ello, presentamos MoReBench: 1,000 escenarios morales, cada uno emparejado con un conjunto de criterios de rúbrica que los expertos consideran esenciales para incluir (o evitar) al razonar sobre los escenarios. MoReBench contiene más de 23 mil criterios, incluyendo la identificación de consideraciones morales, la ponderación de compensaciones y la entrega de recomendaciones accionables para cubrir casos en los que la IA asesora a los humanos en decisiones morales, así como en la toma de decisiones morales de manera autónoma. Por separado, hemos curado MoReBench-Theory: 150 ejemplos para probar si la IA puede razonar bajo cinco marcos principales de la ética normativa. Nuestros resultados muestran que las leyes de escalamiento y los puntos de referencia existentes en tareas de razonamiento matemático, de código y científico no logran predecir las habilidades de los modelos para realizar razonamiento moral. Los modelos también muestran parcialidad hacia marcos morales específicos (por ejemplo, el Utilitarismo Acto Benthamita y la Deontología Kantiana), lo que podría ser un efecto secundario de los paradigmas de entrenamiento populares. Juntos, estos puntos de referencia avanzan en la evaluación del razonamiento centrado en el proceso hacia una IA más segura y transparente.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.