GenPRM: Escalonando o Cálculo em Tempo de Teste de Modelos de Recompensa de Processo por meio de Raciocínio Generativo
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
April 1, 2025
Autores: Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou
cs.AI
Resumo
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) demonstraram que é promissor utilizar Modelos de Recompensa de Processo (PRMs) como verificadores para aprimorar o desempenho dos LLMs. No entanto, os PRMs atuais enfrentam três desafios principais: (1) capacidades limitadas de supervisão e generalização de processos, (2) dependência de previsões de valores escalares sem aproveitar as habilidades gerativas dos LLMs, e (3) incapacidade de escalar o cálculo em tempo de teste dos PRMs. Neste trabalho, introduzimos o GenPRM, um modelo de recompensa de processo generativo que realiza raciocínio explícito em Cadeia de Pensamento (CoT) com verificação de código antes de fornecer um julgamento para cada etapa do raciocínio. Para obter rótulos de supervisão de processo e dados de racionalização de alta qualidade, propomos a Estimativa de Progresso Relativo (RPE) e um framework de síntese de racionalização que incorpora a verificação de código. Resultados experimentais no ProcessBench e em várias tarefas de raciocínio matemático mostram que o GenPRM supera significativamente os PRMs anteriores com apenas 23K dados de treinamento do conjunto de dados MATH. Através do escalonamento em tempo de teste, um GenPRM de 1,5B supera o GPT-4o, e um GenPRM de 7B supera o Qwen2.5-Math-PRM-72B no ProcessBench. Além disso, o GenPRM demonstra fortes habilidades para servir como um modelo crítico para o refinamento de modelos de política. Este trabalho estabelece um novo paradigma para a supervisão de processos que preenche a lacuna entre PRMs e modelos críticos em LLMs. Nosso código, modelo e dados estarão disponíveis em https://ryanliu112.github.io/GenPRM.
English
Recent advancements in Large Language Models (LLMs) have shown that it is
promising to utilize Process Reward Models (PRMs) as verifiers to enhance the
performance of LLMs. However, current PRMs face three key challenges: (1)
limited process supervision and generalization capabilities, (2) dependence on
scalar value prediction without leveraging the generative abilities of LLMs,
and (3) inability to scale the test-time compute of PRMs. In this work, we
introduce GenPRM, a generative process reward model that performs explicit
Chain-of-Thought (CoT) reasoning with code verification before providing
judgment for each reasoning step. To obtain high-quality process supervision
labels and rationale data, we propose Relative Progress Estimation (RPE) and a
rationale synthesis framework that incorporates code verification. Experimental
results on ProcessBench and several mathematical reasoning tasks show that
GenPRM significantly outperforms prior PRMs with only 23K training data from
MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and
a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally,
GenPRM demonstrates strong abilities to serve as a critic model for policy
model refinement. This work establishes a new paradigm for process supervision
that bridges the gap between PRMs and critic models in LLMs. Our code, model,
and data will be available in https://ryanliu112.github.io/GenPRM.Summary
AI-Generated Summary