Prozessbelohnungen mit gelernter Zuverlässigkeit

Zusammenfassung

Prozess-Belohnungsmodelle (PRMs) liefern schrittweise Rückmeldungen für das logische Schließen, aber aktuelle PRMs geben meist nur eine einzelne Belohnungsbewertung für jeden Schritt aus. Daher müssen nachgelagerte Methoden unvollkommene schrittweise Belohnungsvorhersagen als zuverlässige Entscheidungssignale behandeln, ohne Hinweis darauf, wann diesen Vorhersagen vertraut werden sollte. Wir schlagen BetaPRM vor, ein verteilungsbasiertes PRM, das sowohl eine schrittweise Erfolgswahrscheinlichkeit als auch die Zuverlässigkeit dieser Vorhersage vorhersagt. Auf Grundlage der schrittweisen Erfolgsüberwachung durch Monte-Carlo-Fortsetzungen lernt BetaPRM eine Beta-Überzeugung, die die beobachtete Anzahl erfolgreicher Fortsetzungen durch eine Beta-Binomial-Wahrscheinlichkeit erklärt, anstatt das endliche Stichproben-Erfolgsverhältnis als Punktschätzer zu regressieren. Dieses gelernte Zuverlässigkeitssignal gibt an, wann einer Schrittbelohnung vertraut werden sollte, und ermöglicht es nachgelagerten Anwendungen, zuverlässige Belohnungen von unsicheren zu unterscheiden. Als eine Anwendung führen wir die Adaptive Berechnungszuteilung (ACA) für die PRM-gesteuerte Best-of-N-Argumentation ein. ACA nutzt das gelernte Zuverlässigkeitssignal, um anzuhalten, wenn eine hochbelohnte Lösung zuverlässig ist, und zusätzliche Berechnungen für unsichere Kandidatenpräfixe aufzuwenden. Experimente über vier Basisarchitekturen und vier Argumentations-Benchmarks zeigen, dass BetaPRM die PRM-gesteuerte Best-of-N-Auswahl verbessert, während die standardmäßige schrittweise Fehlererkennung erhalten bleibt. Aufbauend auf diesem Signal verbessert ACA den Genauigkeits-Token-Kompromiss gegenüber der Best-of-16 mit festem Budget und reduziert den Token-Verbrauch um bis zu 33,57 %, während die Genauigkeit der endgültigen Antwort verbessert wird.

English

Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.