Procesbeloningen met geleerde betrouwbaarheid

Samenvatting

Procesbeloningsmodellen (PRM's) bieden stapsgewijze feedback voor redeneringen, maar huidige PRM's geven meestal slechts één enkele beloningsscore per stap. Stroomafwaartse methoden moeten daarom onvolmaakte stapsgewijze beloningsvoorspellingen als betrouwbare beslissingssignalen behandelen, zonder aanwijzing wanneer deze voorspellingen vertrouwd moeten worden. Wij stellen BetaPRM voor, een distributionele PRM die zowel een stapsgewijze succeswaarschijnlijkheid als de betrouwbaarheid van die voorspelling voorspelt. Gegeven stapsucces-supervisie uit Monte Carlo-vervolgen leert BetaPRM een Beta-overtuiging die het waargenomen aantal succesvolle vervolgen verklaart via een Beta-Binomiale waarschijnlijkheid, in plaats van te regresseren naar de eindige-steekproefsuccesratio als een puntdoel. Dit geleerde betrouwbaarheidssignaal geeft aan wanneer een stapbeloning vertrouwd moet worden, waardoor stroomafwaartse toepassingen betrouwbare beloningen kunnen onderscheiden van onzekere. Als een toepassing introduceren we Adaptieve Computatietoewijzing (ACA) voor PRM-gestuurd Best-of-N-redeneren. ACA gebruikt het geleerde betrouwbaarheidssignaal om te stoppen wanneer een hoogbelonende oplossing betrouwbaar is en om extra computatie te besteden aan onzekere kandidaatvoorvoegsels. Experimenten met vier backbone-modellen en vier redeneerbenchmarks tonen aan dat BetaPRM de PRM-gestuurde Best-of-N-selectie verbetert terwijl de standaard stapsgewijze foutdetectie behouden blijft. Gebouwd op dit signaal verbetert ACA de nauwkeurigheid–tokenafweging ten opzichte van vastbudget Best-of-16, waarbij het tokenverbruik met maar liefst 33,57% wordt verminderd terwijl de nauwkeurigheid van het uiteindelijke antwoord verbetert.

English

Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.