ProcessBench: Identificação de Erros de Processo no Raciocínio Matemático
ProcessBench: Identifying Process Errors in Mathematical Reasoning
December 9, 2024
Autores: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Resumo
À medida que os modelos de linguagem frequentemente cometem erros ao resolver problemas matemáticos, a identificação automatizada de erros no processo de raciocínio torna-se cada vez mais significativa para sua supervisão escalável. Neste artigo, apresentamos o ProcessBench para medir a capacidade de identificar etapas errôneas no raciocínio matemático. Ele consiste em 3.400 casos de teste, focados principalmente em problemas matemáticos de nível de competição e olimpíada. Cada caso de teste contém uma solução passo a passo com a localização do erro anotada por especialistas humanos. Os modelos devem identificar o primeiro passo que contém um erro, ou concluir que todos os passos estão corretos. Realizamos uma extensa avaliação no ProcessBench, envolvendo dois tipos de modelos: modelos de recompensa de processo (PRMs) e modelos críticos, nos quais, para estes últimos, solicitamos que modelos de linguagem geral critiquem cada etapa da solução. Retiramos duas observações principais: (1) Os PRMs existentes geralmente falham em generalizar para problemas matemáticos mais desafiadores além de GSM8K e MATH. Eles têm desempenho inferior tanto aos modelos críticos (ou seja, modelos de linguagem geral solicitados) quanto ao nosso próprio PRM treinado, que é ajustado de forma direta no conjunto de dados PRM800K. (2) O melhor modelo de código aberto, QwQ-32B-Preview, demonstrou a capacidade de crítica competitiva com o modelo proprietário GPT-4o, apesar de ainda estar atrás do o1-mini especializado em raciocínio. Esperamos que o ProcessBench possa promover pesquisas futuras na avaliação do processo de raciocínio, abrindo caminho para a supervisão escalável de modelos de linguagem.
English
As language models regularly make mistakes when solving math problems,
automated identification of errors in the reasoning process becomes
increasingly significant for their scalable oversight. In this paper, we
introduce ProcessBench for measuring the ability to identify erroneous steps in
mathematical reasoning. It consists of 3,400 test cases, primarily focused on
competition- and Olympiad-level math problems. Each test case contains a
step-by-step solution with error location annotated by human experts. Models
are required to identify the earliest step that contains an error, or conclude
that all steps are correct. We conduct extensive evaluation on ProcessBench,
involving two types of models: process reward models (PRMs) and critic models,
where for the latter we prompt general language models to critique each
solution step by step. We draw two main observations: (1) Existing PRMs
typically fail to generalize to more challenging math problems beyond GSM8K and
MATH. They underperform both critic models (i.e., prompted general language
models) and our own trained PRM that is straightforwardly fine-tuned on the
PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has
demonstrated the critique capability competitive with the proprietary model
GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We
hope ProcessBench can foster future research in reasoning process assessment,
paving the way toward scalable oversight of language models.Summary
AI-Generated Summary