Бесплатные Процессные Награды без Меток Процесса

Аннотация

В отличие от моделей оценки исходных наград (ORM), которые оценивают полные ответы, модель оценки процесса (PRM) оценивает траекторию рассуждения пошагово, обеспечивая более плотные и детализированные награды. Однако обучение PRM требует меток, аннотированных на каждом промежуточном шаге, что представляет существенные вызовы как для ручного, так и для автоматического сбора данных. Цель данной статьи заключается в решении этой проблемы. Теоретически и эмпирически мы показываем, что неявную PRM можно получить без дополнительных затрат, просто обучив ORM на более дешевых метках на уровне ответа. Единственное предположение заключается в параметризации исходной награды в виде логарифмических отношений правдоподобия политики и опорных моделей, которые могут быть оптимизированы независимо от конкретного выбора целей потерь. В экспериментах мы создаем неявные PRM с различными целями и оцениваем их производительность на MATH. Мы показываем, что наша неявная PRM превосходит сильный базовый уровень на основе MCTS, подобный Math-Shepherd, используя менее 1/38 обучающих данных. Его производительность может быть дополнительно улучшена с помощью голосования большинства. Мы также обнаруживаем, что увеличение инструкций и ответов благоприятно для нашей неявной PRM, причем последнее приносит большую выгоду. В частности, мы замечаем, что наша неявная PRM, когда создана с использованием потерь перекрестной энтропии (CE), более эффективна по данным и может продолжать улучшать модели генерации даже при обучении всего одному ответу на инструкцию, что страдает от крайней нехватки данных и дисбаланса. Кроме того, инструкции должны быть связаны с последующими задачами, в то время как разнообразие ответов не приносит выгоды. Удивительно, обучение на дополнительных метках шага Math-Shepherd не приносит дополнительных улучшений нашей неявной PRM, обученной только на данных об исходе. Мы надеемся, что наша работа побудит к пересмотру подходов к обучению PRM и способствует упрощению обучения PRM.

English

Different from its counterpart outcome reward models (ORMs), which evaluate the entire responses, a process reward model (PRM) scores a reasoning trajectory step by step, providing denser and more fine grained rewards. However, training a PRM requires labels annotated at every intermediate step, presenting significant challenges for both manual and automatic data collection. This paper aims to address this challenge. Both theoretically and empirically, we show that an implicit PRM can be obtained at no additional cost, by simply training an ORM on the cheaper response-level labels. The only assumption is to parameterize the outcome reward as the log-likelihood ratios of the policy and reference models, which can be optimized regardless of the specific choice of loss objectives. In experiments, we instantiate our implicit PRMs with various objectives and evaluate their performance on MATH. We show that our implicit PRM outperforms a strong MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the training data. Its performance can be further improved with majority voting. We further find that scaling up instructions and responses benefits our implicit PRM, and the latter brings a larger gain. Particularly, we find that our implicit PRM, when instantiated with the cross-entropy (CE) loss, is more data-efficient and can keep improving generation models even when trained with only one response per instruction, the setup that suffers from extreme data scarcity and imbalance. Further, instructions should be relevant to downstream tasks while the diversity of responses does not bring gains. Surprisingly, training on extra Math-Shepherd step labels brings no further improvements to our implicit PRM trained on only outcome data. We hope that our work will encourage a rethinking of PRM training approaches and contribute to making training PRMs more accessible.

Бесплатные Процессные Награды без Меток Процесса

Free Process Rewards without Process Labels

Аннотация

Support