Récompenses de processus avec fiabilité apprise

Résumé

Les Modèles de Récompense de Processus (PRMs) fournissent un retour d'information au niveau des étapes pour le raisonnement, mais les PRMs actuels ne produisent généralement qu'un seul score de récompense pour chaque étape. Les méthodes en aval doivent donc traiter des prédictions de récompense imparfaites au niveau des étapes comme des signaux de décision fiables, sans indication quant au moment où ces prédictions doivent être considérées comme dignes de confiance. Nous proposons BetaPRM, un PRM distributionnel qui prédit à la fois une probabilité de succès au niveau des étapes et la fiabilité de cette prédiction. À partir d'une supervision de succès par étapes issue de continuations Monte Carlo, BetaPRM apprend une croyance Beta qui explique le nombre observé de continuations réussies via une vraisemblance Beta-Binomiale, plutôt que de régresser vers le ratio de succès sur un échantillon fini comme cible ponctuelle. Ce signal de fiabilité appris indique quand une récompense par étape doit être considérée comme fiable, permettant aux applications en aval de distinguer les récompenses fiables des récompenses incertaines. Comme application, nous introduisons l'Allocation Adaptative de Calcul (ACA) pour le raisonnement Best-of-N guidé par PRM. ACA utilise le signal de fiabilité appris pour s'arrêter lorsqu'une solution à haute récompense est fiable et pour consacrer du calcul supplémentaire sur des préfixes candidats incertains. Des expériences menées sur quatre architectures de base et quatre benchmarks de raisonnement montrent que BetaPRM améliore la sélection Best-of-N guidée par PRM tout en préservant la détection d'erreurs standard au niveau des étapes. Reposant sur ce signal, ACA améliore le compromis précision–tokens par rapport au Best-of-16 à budget fixe, réduisant l'utilisation de tokens jusqu'à 33,57 % tout en améliorant la précision de la réponse finale.

English

Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.