Неконтролируемые модели вознаграждения процесса

Аннотация

Модели вознаграждения за процесс (PRM) представляют собой мощный механизм управления рассуждениями больших языковых моделей благодаря предоставлению детализированного контроля на уровне отдельных шагов. Однако эта эффективность достигается ценой значительных затрат: PRM требуют экспертных аннотаций для каждого шага рассуждения, что делает их дорогостоящими и трудно масштабируемыми. В данной работе мы предлагаем метод обучения неконтролируемых PRM (uPRM), который не требует человеческого контроля ни на уровне пошаговых аннотаций, ни на уровне проверки окончательных ответов по истинным значениям. Ключевая идея нашего подхода заключается в определении оценочной функции, основанной на вероятностях следующего токена LLM, которая совместно оценивает кандидатные положения первых ошибочных шагов в пакете траекторий рассуждений. Мы демонстрируем эффективность uPRM в различных сценариях: (i) uPRM достигает до 15% абсолютного улучшения точности по сравнению с подходом "LLM в роли судьи" при определении первых ошибочных шагов на наборе данных ProcessBench; (ii) в качестве верификатора для масштабирования во время тестирования uPRM показывает результаты, сопоставимые с контролируемыми PRM, и превосходит базовый метод голосования большинством голосов на величину до 6,9%; (iii) при использовании в качестве сигнала вознаграждения в обучении с подкреплением uPRM обеспечивает более устойчивую оптимизацию политики на протяжении всего обучения по сравнению с контролируемым PRM, обученным с использованием истинных меток. В целом, наши результаты открывают путь к масштабируемому моделированию вознаграждения для сложных задач рассуждения.

English

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.