Вознаграждения процесса с обученной надежностью

Аннотация

Модели вознаграждения за процесс (PRM) обеспечивают пошаговую обратную связь при рассуждениях, однако современные PRM обычно выдают только одну оценку вознаграждения за каждый шаг. Поэтому нисходящие методы вынуждены рассматривать несовершенные предсказания пошаговых вознаграждений как надежные сигналы для принятия решений, не имея указаний о том, когда эти предсказания следует доверять. Мы предлагаем BetaPRM — дистрибутивную PRM, которая предсказывает как вероятность успеха на уровне шага, так и надежность этого предсказания. Используя наблюдения за успешностью шагов на основе продолжений Монте-Карло, BetaPRM обучает бета-априорное распределение, которое объясняет наблюдаемое количество успешных продолжений через бета-биномиальное правдоподобие, а не регрессирует к соотношению успехов в конечной выборке как к точечной цели. Этот изученный сигнал надежности указывает, когда следует доверять вознаграждению за шаг, позволяя нисходящим приложениям отличать надежные вознаграждения от неопределенных. В качестве одного из применений мы вводим адаптивное распределение вычислений (ACA) для рассуждений методом "лучший из N" с направляющей ролью PRM. ACA использует изученный сигнал надежности для остановки при достижении надежного решения с высоким вознаграждением и для выделения дополнительных вычислений на неопределенные префиксы-кандидаты. Эксперименты на четырех бэкбонах и четырех бенчмарках рассуждений показывают, что BetaPRM улучшает выбор методом "лучший из N" с направляющей ролью PRM, сохраняя при этом стандартное обнаружение ошибок на уровне шагов. Основанное на этом сигнале, ACA улучшает компромисс между точностью и количеством токенов по сравнению с фиксированным бюджетом "лучший из 16", сокращая использование токенов до 33,57% при одновременном повышении точности итогового ответа.

English

Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.