GenPRM: Escalonando o Cálculo em Tempo de Teste de Modelos de Recompensa de Processo por meio de Raciocínio Generativo

Resumo

Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) demonstraram que é promissor utilizar Modelos de Recompensa de Processo (PRMs) como verificadores para aprimorar o desempenho dos LLMs. No entanto, os PRMs atuais enfrentam três desafios principais: (1) capacidades limitadas de supervisão e generalização de processos, (2) dependência de previsões de valores escalares sem aproveitar as habilidades gerativas dos LLMs, e (3) incapacidade de escalar o cálculo em tempo de teste dos PRMs. Neste trabalho, introduzimos o GenPRM, um modelo de recompensa de processo generativo que realiza raciocínio explícito em Cadeia de Pensamento (CoT) com verificação de código antes de fornecer um julgamento para cada etapa do raciocínio. Para obter rótulos de supervisão de processo e dados de racionalização de alta qualidade, propomos a Estimativa de Progresso Relativo (RPE) e um framework de síntese de racionalização que incorpora a verificação de código. Resultados experimentais no ProcessBench e em várias tarefas de raciocínio matemático mostram que o GenPRM supera significativamente os PRMs anteriores com apenas 23K dados de treinamento do conjunto de dados MATH. Através do escalonamento em tempo de teste, um GenPRM de 1,5B supera o GPT-4o, e um GenPRM de 7B supera o Qwen2.5-Math-PRM-72B no ProcessBench. Além disso, o GenPRM demonstra fortes habilidades para servir como um modelo crítico para o refinamento de modelos de política. Este trabalho estabelece um novo paradigma para a supervisão de processos que preenche a lacuna entre PRMs e modelos críticos em LLMs. Nosso código, modelo e dados estarão disponíveis em https://ryanliu112.github.io/GenPRM.

English

Recent advancements in Large Language Models (LLMs) have shown that it is promising to utilize Process Reward Models (PRMs) as verifiers to enhance the performance of LLMs. However, current PRMs face three key challenges: (1) limited process supervision and generalization capabilities, (2) dependence on scalar value prediction without leveraging the generative abilities of LLMs, and (3) inability to scale the test-time compute of PRMs. In this work, we introduce GenPRM, a generative process reward model that performs explicit Chain-of-Thought (CoT) reasoning with code verification before providing judgment for each reasoning step. To obtain high-quality process supervision labels and rationale data, we propose Relative Progress Estimation (RPE) and a rationale synthesis framework that incorporates code verification. Experimental results on ProcessBench and several mathematical reasoning tasks show that GenPRM significantly outperforms prior PRMs with only 23K training data from MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally, GenPRM demonstrates strong abilities to serve as a critic model for policy model refinement. This work establishes a new paradigm for process supervision that bridges the gap between PRMs and critic models in LLMs. Our code, model, and data will be available in https://ryanliu112.github.io/GenPRM.

GenPRM: Escalonando o Cálculo em Tempo de Teste de Modelos de Recompensa de Processo por meio de Raciocínio Generativo

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Resumo

Summary

Support

Support