ChatPaper.aiChatPaper

ProcessBench: Выявление ошибок в процессе математического рассуждения

ProcessBench: Identifying Process Errors in Mathematical Reasoning

December 9, 2024
Авторы: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

Поскольку языковые модели регулярно допускают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждений становится все более значимой для их масштабного контроля. В данной статье мы представляем ProcessBench для измерения способности выявлять ошибочные шаги в математических рассуждениях. Он состоит из 3 400 тестовых случаев, в основном сосредоточенных на математических задачах уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с указанием места ошибки экспертами. Модели должны определить самый ранний шаг, содержащий ошибку, или заключить, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели наград за процесс (PRM) и модели-критики, где для последних мы подталкиваем общие языковые модели к критике каждого шага решения. Мы делаем два основных наблюдения: (1) Существующие PRM обычно не могут обобщиться на более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям-критикам (т.е. подталкиваемым общим языковым моделям), так и нашей собственной обученной PRM, которая просто настроена на набор данных PRM800K. (2) Лучшая модель с открытым исходным кодом, QwQ-32B-Preview, продемонстрировала способность к критике, конкурентную с собственной моделью GPT-4o, хотя она все еще уступает специализированной на рассуждениях o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в оценке процесса рассуждений, открывая путь к масштабному контролю языковых моделей.
English
As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

Summary

AI-Generated Summary

PDF836December 10, 2024