Recompensas de Processo Livre sem Etiquetas de Processo
Free Process Rewards without Process Labels
December 2, 2024
Autores: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI
Resumo
Ao contrário dos modelos de recompensa de resultado (ORMs) correspondentes, que avaliam todas as respostas, um modelo de recompensa de processo (PRM) pontua uma trajetória de raciocínio passo a passo, fornecendo recompensas mais densas e detalhadas. No entanto, treinar um PRM requer rótulos anotados em cada etapa intermediária, apresentando desafios significativos tanto para a coleta manual quanto automática de dados. Este artigo tem como objetivo abordar esse desafio. Tanto teoricamente quanto empiricamente, demonstramos que um PRM implícito pode ser obtido sem custo adicional, simplesmente treinando um ORM com os rótulos mais baratos a nível de resposta. A única suposição é parametrizar a recompensa de resultado como as razões de log-verossimilhança dos modelos de política e referência, que podem ser otimizados independentemente da escolha específica de objetivos de perda. Em experimentos, instanciamos nossos PRMs implícitos com vários objetivos e avaliamos seu desempenho em MATH. Mostramos que nosso PRM implícito supera uma linha de base forte baseada em MCTS à la Math-Shepherd usando menos de 1/38 dos dados de treinamento. Seu desempenho pode ser ainda melhorado com votação majoritária. Além disso, descobrimos que aumentar as instruções e respostas beneficia nosso PRM implícito, sendo que as respostas trazem um ganho maior. Em particular, observamos que nosso PRM implícito, quando instanciado com a perda de entropia cruzada (CE), é mais eficiente em dados e pode continuar a melhorar os modelos de geração mesmo quando treinado com apenas uma resposta por instrução, cenário que sofre com extrema escassez e desequilíbrio de dados. Além disso, as instruções devem ser relevantes para as tarefas futuras, enquanto a diversidade de respostas não traz ganhos. Surpreendentemente, treinar com rótulos extras de etapas do Math-Shepherd não traz melhorias adicionais ao nosso PRM implícito treinado apenas com dados de resultado. Esperamos que nosso trabalho estimule uma reflexão sobre abordagens de treinamento de PRM e contribua para tornar o treinamento de PRMs mais acessível.
English
Different from its counterpart outcome reward models (ORMs), which evaluate
the entire responses, a process reward model (PRM) scores a reasoning
trajectory step by step, providing denser and more fine grained rewards.
However, training a PRM requires labels annotated at every intermediate step,
presenting significant challenges for both manual and automatic data
collection. This paper aims to address this challenge. Both theoretically and
empirically, we show that an implicit PRM can be obtained at no
additional cost, by simply training an ORM on the cheaper response-level
labels. The only assumption is to parameterize the outcome reward as the
log-likelihood ratios of the policy and reference models, which can be
optimized regardless of the specific choice of loss objectives. In experiments,
we instantiate our implicit PRMs with various objectives and evaluate their
performance on MATH. We show that our implicit PRM outperforms a strong
MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the
training data. Its performance can be further improved with majority voting. We
further find that scaling up instructions and responses benefits our implicit
PRM, and the latter brings a larger gain. Particularly, we find that our
implicit PRM, when instantiated with the cross-entropy (CE) loss, is more
data-efficient and can keep improving generation models even when trained with
only one response per instruction, the setup that suffers from extreme data
scarcity and imbalance. Further, instructions should be relevant to downstream
tasks while the diversity of responses does not bring gains. Surprisingly,
training on extra Math-Shepherd step labels brings no further improvements to
our implicit PRM trained on only outcome data. We hope that our work will
encourage a rethinking of PRM training approaches and contribute to making
training PRMs more accessible.Summary
AI-Generated Summary