ChatPaper.aiChatPaper

ProcessBench: Identificación de Errores en el Proceso en el Razonamiento Matemático

ProcessBench: Identifying Process Errors in Mathematical Reasoning

December 9, 2024
Autores: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Resumen

Dado que los modelos de lenguaje suelen cometer errores al resolver problemas matemáticos, la identificación automatizada de errores en el proceso de razonamiento se vuelve cada vez más significativa para su supervisión escalable. En este documento, presentamos ProcessBench para medir la capacidad de identificar pasos erróneos en el razonamiento matemático. Consiste en 3,400 casos de prueba, centrados principalmente en problemas matemáticos de nivel de competición y olimpiadas. Cada caso de prueba contiene una solución paso a paso con la ubicación del error anotada por expertos humanos. Se requiere que los modelos identifiquen el paso más temprano que contiene un error, o concluyan que todos los pasos son correctos. Realizamos una evaluación exhaustiva en ProcessBench, que involucra dos tipos de modelos: modelos de recompensa de proceso (PRMs) y modelos críticos, donde para estos últimos incitamos a los modelos de lenguaje general a criticar cada paso de la solución. Extraemos dos observaciones principales: (1) Los PRMs existentes suelen fallar al generalizar a problemas matemáticos más desafiantes más allá de GSM8K y MATH. Tienen un rendimiento inferior tanto a los modelos críticos (es decir, modelos de lenguaje general incitados) como a nuestro propio PRM entrenado que se ajusta directamente en el conjunto de datos PRM800K. (2) El mejor modelo de código abierto, QwQ-32B-Preview, ha demostrado una capacidad de crítica competitiva con el modelo propietario GPT-4o, a pesar de que aún se rezaga detrás del o1-mini especializado en razonamiento. Esperamos que ProcessBench pueda fomentar futuras investigaciones en la evaluación del proceso de razonamiento, allanando el camino hacia la supervisión escalable de modelos de lenguaje.
English
As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

Summary

AI-Generated Summary

PDF836December 10, 2024