MoReBench: Оценка процедурного и плюралистического морального мышления в языковых моделях, выходящая за рамки результатов
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
October 18, 2025
Авторы: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
cs.AI
Аннотация
По мере развития систем ИИ мы все больше полагаемся на них в принятии решений вместе с нами и за нас. Чтобы такие решения соответствовали человеческим ценностям, крайне важно понимать не только то, какие решения они принимают, но и как они приходят к этим решениям. Рассуждающие языковые модели, которые предоставляют как конечные ответы, так и (частично прозрачные) промежуточные следы мышления, представляют своевременную возможность для изучения процедурного рассуждения ИИ. В отличие от математических и программных задач, которые часто имеют объективно правильные ответы, моральные дилеммы являются отличной площадкой для оценки, ориентированной на процесс, поскольку они допускают множество обоснованных выводов. Для этого мы представляем MoReBench: 1000 моральных сценариев, каждый из которых сопровождается набором критериев, которые эксперты считают важными для включения (или избегания) при рассуждении о сценариях. MoReBench содержит более 23 тысяч критериев, включая выявление моральных соображений, взвешивание компромиссов и предоставление практических рекомендаций, охватывающих случаи, когда ИИ советует людям в моральных решениях, а также принимает моральные решения автономно. Отдельно мы создаем MoReBench-Theory: 150 примеров для проверки способности ИИ рассуждать в рамках пяти основных направлений нормативной этики. Наши результаты показывают, что законы масштабирования и существующие тесты на математические, программные и научные рассуждения не позволяют предсказать способности моделей к моральному рассуждению. Модели также демонстрируют предпочтение определенным моральным подходам (например, бентамовскому актуализму и кантовской деонтологии), что может быть побочным эффектом популярных парадигм обучения. Вместе эти тесты продвигают оценку рассуждений, ориентированную на процесс, в сторону более безопасного и прозрачного ИИ.
English
As AI systems progress, we rely more on them to make decisions with us and
for us. To ensure that such decisions are aligned with human values, it is
imperative for us to understand not only what decisions they make but also how
they come to those decisions. Reasoning language models, which provide both
final responses and (partially transparent) intermediate thinking traces,
present a timely opportunity to study AI procedural reasoning. Unlike math and
code problems which often have objectively correct answers, moral dilemmas are
an excellent testbed for process-focused evaluation because they allow for
multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral
scenarios, each paired with a set of rubric criteria that experts consider
essential to include (or avoid) when reasoning about the scenarios. MoReBench
contains over 23 thousand criteria including identifying moral considerations,
weighing trade-offs, and giving actionable recommendations to cover cases on AI
advising humans moral decisions as well as making moral decisions autonomously.
Separately, we curate MoReBench-Theory: 150 examples to test whether AI can
reason under five major frameworks in normative ethics. Our results show that
scaling laws and existing benchmarks on math, code, and scientific reasoning
tasks fail to predict models' abilities to perform moral reasoning. Models also
show partiality towards specific moral frameworks (e.g., Benthamite Act
Utilitarianism and Kantian Deontology), which might be side effects of popular
training paradigms. Together, these benchmarks advance process-focused
reasoning evaluation towards safer and more transparent AI.