ProcessBench: Identificação de Erros de Processo no Raciocínio Matemático

Resumo

À medida que os modelos de linguagem frequentemente cometem erros ao resolver problemas matemáticos, a identificação automatizada de erros no processo de raciocínio torna-se cada vez mais significativa para sua supervisão escalável. Neste artigo, apresentamos o ProcessBench para medir a capacidade de identificar etapas errôneas no raciocínio matemático. Ele consiste em 3.400 casos de teste, focados principalmente em problemas matemáticos de nível de competição e olimpíada. Cada caso de teste contém uma solução passo a passo com a localização do erro anotada por especialistas humanos. Os modelos devem identificar o primeiro passo que contém um erro, ou concluir que todos os passos estão corretos. Realizamos uma extensa avaliação no ProcessBench, envolvendo dois tipos de modelos: modelos de recompensa de processo (PRMs) e modelos críticos, nos quais, para estes últimos, solicitamos que modelos de linguagem geral critiquem cada etapa da solução. Retiramos duas observações principais: (1) Os PRMs existentes geralmente falham em generalizar para problemas matemáticos mais desafiadores além de GSM8K e MATH. Eles têm desempenho inferior tanto aos modelos críticos (ou seja, modelos de linguagem geral solicitados) quanto ao nosso próprio PRM treinado, que é ajustado de forma direta no conjunto de dados PRM800K. (2) O melhor modelo de código aberto, QwQ-32B-Preview, demonstrou a capacidade de crítica competitiva com o modelo proprietário GPT-4o, apesar de ainda estar atrás do o1-mini especializado em raciocínio. Esperamos que o ProcessBench possa promover pesquisas futuras na avaliação do processo de raciocínio, abrindo caminho para a supervisão escalável de modelos de linguagem.

English

As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

ProcessBench: Identificação de Erros de Processo no Raciocínio Matemático

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Resumo

Support