Recompensas de Proceso con Fiabilidad Aprendida

Resumen

Los Modelos de Recompensa de Procesos (PRMs) proporcionan retroalimentación a nivel de paso para el razonamiento, pero los PRMs actuales generalmente solo generan una puntuación de recompensa única para cada paso. Por lo tanto, los métodos descendentes deben tratar las predicciones imperfectas de recompensa a nivel de paso como señales de decisión confiables, sin indicación de cuándo se debe confiar en estas predicciones. Proponemos BetaPRM, un PRM distribucional que predice tanto la probabilidad de éxito a nivel de paso como la fiabilidad de esa predicción. Dada la supervisión de éxito de paso a partir de continuaciones de Monte Carlo, BetaPRM aprende una creencia Beta que explica el número observado de continuaciones exitosas a través de una verosimilitud Beta-Binomial, en lugar de regresar a la proporción de éxito de muestra finita como un objetivo puntual. Esta señal de fiabilidad aprendida indica cuándo se debe confiar en una recompensa de paso, permitiendo que las aplicaciones descendentes distingan entre recompensas fiables y las inciertas. Como una aplicación, introducimos la Asignación Adaptativa de Cómputo (ACA) para el razonamiento Best-of-N guiado por PRM. ACA utiliza la señal de fiabilidad aprendida para detenerse cuando una solución de alta recompensa es fiable y para dedicar cómputo adicional a prefijos candidatos inciertos. Los experimentos con cuatro modelos base y cuatro puntos de referencia de razonamiento muestran que BetaPRM mejora la selección Best-of-N guiada por PRM, manteniendo la detección estándar de errores a nivel de paso. Basado en esta señal, ACA mejora el equilibrio entre precisión y tokens en comparación con Best-of-16 de presupuesto fijo, reduciendo el uso de tokens hasta en un 33.57% y mejorando la precisión de la respuesta final.

English

Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.