Récompenses de Processus Libres sans Étiquettes de Processus

papers.abstract

Contrairement aux modèles de récompense de résultats (ORM) qui évaluent l'ensemble des réponses, un modèle de récompense de processus (PRM) évalue pas à pas une trajectoire de raisonnement, fournissant des récompenses plus denses et plus fines. Cependant, former un PRM nécessite des étiquettes annotées à chaque étape intermédiaire, ce qui présente des défis significatifs pour la collecte manuelle et automatique de données. Cet article vise à relever ce défi. Théoriquement et empiriquement, nous montrons qu'un PRM implicite peut être obtenu sans coût supplémentaire, en formant simplement un ORM sur des étiquettes moins coûteuses au niveau des réponses. La seule hypothèse est de paramétrer la récompense de résultat comme les rapports de log-vraisemblance des modèles de politique et de référence, qui peuvent être optimisés indépendamment du choix spécifique des objectifs de perte. Dans nos expériences, nous instancions nos PRM implicites avec divers objectifs et évaluons leurs performances sur MATH. Nous montrons que notre PRM implicite surpasse une référence forte basée sur MCTS à la manière de Math-Shepherd en n'utilisant pas plus de 1/38 des données d'entraînement. Sa performance peut être encore améliorée avec un vote majoritaire. Nous constatons également que l'augmentation des instructions et des réponses bénéficie à notre PRM implicite, et que les réponses apportent un gain plus important. En particulier, nous observons que notre PRM implicite, lorsqu'il est instancié avec la perte de cross-entropie (CE), est plus efficace en termes de données et peut continuer à améliorer les modèles de génération même lorsqu'il est entraîné avec une seule réponse par instruction, une configuration qui souffre d'une extrême rareté et déséquilibre des données. De plus, les instructions doivent être pertinentes pour les tâches ultérieures, tandis que la diversité des réponses n'apporte aucun avantage. De manière surprenante, l'entraînement sur des étiquettes supplémentaires de Math-Shepherd n'apporte aucune amélioration supplémentaire à notre PRM implicite formé uniquement sur des données de résultat. Nous espérons que notre travail encouragera une réflexion sur les approches de formation des PRM et contribuera à rendre la formation des PRM plus accessible.

English

Different from its counterpart outcome reward models (ORMs), which evaluate the entire responses, a process reward model (PRM) scores a reasoning trajectory step by step, providing denser and more fine grained rewards. However, training a PRM requires labels annotated at every intermediate step, presenting significant challenges for both manual and automatic data collection. This paper aims to address this challenge. Both theoretically and empirically, we show that an implicit PRM can be obtained at no additional cost, by simply training an ORM on the cheaper response-level labels. The only assumption is to parameterize the outcome reward as the log-likelihood ratios of the policy and reference models, which can be optimized regardless of the specific choice of loss objectives. In experiments, we instantiate our implicit PRMs with various objectives and evaluate their performance on MATH. We show that our implicit PRM outperforms a strong MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the training data. Its performance can be further improved with majority voting. We further find that scaling up instructions and responses benefits our implicit PRM, and the latter brings a larger gain. Particularly, we find that our implicit PRM, when instantiated with the cross-entropy (CE) loss, is more data-efficient and can keep improving generation models even when trained with only one response per instruction, the setup that suffers from extreme data scarcity and imbalance. Further, instructions should be relevant to downstream tasks while the diversity of responses does not bring gains. Surprisingly, training on extra Math-Shepherd step labels brings no further improvements to our implicit PRM trained on only outcome data. We hope that our work will encourage a rethinking of PRM training approaches and contribute to making training PRMs more accessible.

Récompenses de Processus Libres sans Étiquettes de Processus

Free Process Rewards without Process Labels

papers.abstract

Support