Recompensas de Processo com Confiabilidade Aprendida

Resumo

Modelos de Recompensa por Processo (PRMs) fornecem feedback em nível de etapa para raciocínio, mas os PRMs atuais geralmente produzem apenas uma única pontuação de recompensa para cada etapa. Métodos downstream devem, portanto, tratar previsões de recompensa imperfeitas em nível de etapa como sinais de decisão confiáveis, sem indicação de quando essas previsões devem ser confiáveis. Propomos o BetaPRM, um PRM distribucional que prevê tanto a probabilidade de sucesso em nível de etapa quanto a confiabilidade dessa previsão. Dada a supervisão de sucesso em etapas a partir de continuações de Monte Carlo, o BetaPRM aprende uma crença Beta que explica o número observado de continuações bem-sucedidas por meio de uma verossimilhança Beta-Binomial, em vez de regredir para a razão de sucesso da amostra finita como um alvo pontual. Esse sinal de confiabilidade aprendido indica quando uma recompensa de etapa deve ser confiável, permitindo que aplicações downstream distingam recompensas confiáveis de incertas. Como uma aplicação, introduzimos a Alocação Adaptativa de Computação (ACA) para o raciocínio Melhor-de-N guiado por PRM. A ACA usa o sinal de confiabilidade aprendido para parar quando uma solução de alta recompensa é confiável e para gastar computação adicional em prefixos candidatos incertos. Experimentos em quatro backbones e quatro benchmarks de raciocínio mostram que o BetaPRM melhora a seleção Melhor-de-N guiada por PRM, preservando a detecção padrão de erros em nível de etapa. Construída sobre esse sinal, a ACA melhora o compromisso precisão—token em relação ao Melhor-de-16 com orçamento fixo, reduzindo o uso de tokens em até 33,57% enquanto melhora a precisão da resposta final.

English

Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.