Récompenses de Processus Libres sans Étiquettes de Processus
Free Process Rewards without Process Labels
December 2, 2024
Auteurs: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI
Résumé
Contrairement aux modèles de récompense de résultats (ORM) qui évaluent l'ensemble des réponses, un modèle de récompense de processus (PRM) évalue pas à pas une trajectoire de raisonnement, fournissant des récompenses plus denses et plus fines. Cependant, former un PRM nécessite des étiquettes annotées à chaque étape intermédiaire, ce qui présente des défis significatifs pour la collecte manuelle et automatique de données. Cet article vise à relever ce défi. Théoriquement et empiriquement, nous montrons qu'un PRM implicite peut être obtenu sans coût supplémentaire, en formant simplement un ORM sur des étiquettes moins coûteuses au niveau des réponses. La seule hypothèse est de paramétrer la récompense de résultat comme les rapports de log-vraisemblance des modèles de politique et de référence, qui peuvent être optimisés indépendamment du choix spécifique des objectifs de perte. Dans nos expériences, nous instancions nos PRM implicites avec divers objectifs et évaluons leurs performances sur MATH. Nous montrons que notre PRM implicite surpasse une référence forte basée sur MCTS à la manière de Math-Shepherd en n'utilisant pas plus de 1/38 des données d'entraînement. Sa performance peut être encore améliorée avec un vote majoritaire. Nous constatons également que l'augmentation des instructions et des réponses bénéficie à notre PRM implicite, et que les réponses apportent un gain plus important. En particulier, nous observons que notre PRM implicite, lorsqu'il est instancié avec la perte de cross-entropie (CE), est plus efficace en termes de données et peut continuer à améliorer les modèles de génération même lorsqu'il est entraîné avec une seule réponse par instruction, une configuration qui souffre d'une extrême rareté et déséquilibre des données. De plus, les instructions doivent être pertinentes pour les tâches ultérieures, tandis que la diversité des réponses n'apporte aucun avantage. De manière surprenante, l'entraînement sur des étiquettes supplémentaires de Math-Shepherd n'apporte aucune amélioration supplémentaire à notre PRM implicite formé uniquement sur des données de résultat. Nous espérons que notre travail encouragera une réflexion sur les approches de formation des PRM et contribuera à rendre la formation des PRM plus accessible.
English
Different from its counterpart outcome reward models (ORMs), which evaluate
the entire responses, a process reward model (PRM) scores a reasoning
trajectory step by step, providing denser and more fine grained rewards.
However, training a PRM requires labels annotated at every intermediate step,
presenting significant challenges for both manual and automatic data
collection. This paper aims to address this challenge. Both theoretically and
empirically, we show that an implicit PRM can be obtained at no
additional cost, by simply training an ORM on the cheaper response-level
labels. The only assumption is to parameterize the outcome reward as the
log-likelihood ratios of the policy and reference models, which can be
optimized regardless of the specific choice of loss objectives. In experiments,
we instantiate our implicit PRMs with various objectives and evaluate their
performance on MATH. We show that our implicit PRM outperforms a strong
MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the
training data. Its performance can be further improved with majority voting. We
further find that scaling up instructions and responses benefits our implicit
PRM, and the latter brings a larger gain. Particularly, we find that our
implicit PRM, when instantiated with the cross-entropy (CE) loss, is more
data-efficient and can keep improving generation models even when trained with
only one response per instruction, the setup that suffers from extreme data
scarcity and imbalance. Further, instructions should be relevant to downstream
tasks while the diversity of responses does not bring gains. Surprisingly,
training on extra Math-Shepherd step labels brings no further improvements to
our implicit PRM trained on only outcome data. We hope that our work will
encourage a rethinking of PRM training approaches and contribute to making
training PRMs more accessible.Summary
AI-Generated Summary