ChatPaper.aiChatPaper

Freie Prozessbelohnungen ohne Prozessetiketten

Free Process Rewards without Process Labels

December 2, 2024
Autoren: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI

Zusammenfassung

Im Gegensatz zu ihren Gegenstücken, den Outcome Reward Models (ORMs), die die gesamten Antworten bewerten, bewertet ein Process Reward Model (PRM) einen Denkprozess Schritt für Schritt und liefert dichtere und feinere Belohnungen. Das Training eines PRM erfordert jedoch Beschriftungen, die bei jedem Zwischenschritt annotiert sind, was sowohl bei manueller als auch automatischer Datensammlung erhebliche Herausforderungen darstellt. Diese Arbeit zielt darauf ab, diese Herausforderung anzugehen. Theoretisch und empirisch zeigen wir, dass ein implizites PRM ohne zusätzliche Kosten erhalten werden kann, indem einfach ein ORM mit den kostengünstigeren Antwort-Level-Beschriftungen trainiert wird. Die einzige Annahme besteht darin, die Outcome-Belohnung als den Log-Likelihood-Verhältnissen der Richtlinien- und Referenzmodelle zu parametrisieren, die unabhängig von der spezifischen Wahl der Verlustziele optimiert werden können. In Experimenten instantiieren wir unsere impliziten PRMs mit verschiedenen Zielen und bewerten ihre Leistung in MATH. Wir zeigen, dass unser implizites PRM eine starke MCTS-basierte Baseline à la Math-Shepherd mit weniger als 1/38 der Trainingsdaten übertrifft. Seine Leistung kann durch Mehrheitsabstimmung weiter verbessert werden. Wir stellen fest, dass die Skalierung von Anweisungen und Antworten unserem impliziten PRM zugutekommt, wobei Letzteres einen größeren Gewinn bringt. Insbesondere stellen wir fest, dass unser implizites PRM, wenn es mit dem Cross-Entropy (CE)-Verlust instantiiert wird, dateneffizienter ist und die Generationsmodelle weiter verbessern kann, selbst wenn sie nur mit einer Antwort pro Anweisung trainiert werden, einem Setup, das unter extremem Datenmangel und Ungleichgewicht leidet. Darüber hinaus sollten Anweisungen für nachgelagerte Aufgaben relevant sein, während die Vielfalt der Antworten keine Vorteile bringt. Überraschenderweise bringen zusätzliche Math-Shepherd-Schrittbewertungen kein weiteres Verbesserungspotenzial für unser implizites PRM, das nur mit Outcome-Daten trainiert wurde. Wir hoffen, dass unsere Arbeit dazu beiträgt, die Herangehensweise an das Training von PRMs zu überdenken und dazu beiträgt, das Training von PRMs zugänglicher zu machen.
English
Different from its counterpart outcome reward models (ORMs), which evaluate the entire responses, a process reward model (PRM) scores a reasoning trajectory step by step, providing denser and more fine grained rewards. However, training a PRM requires labels annotated at every intermediate step, presenting significant challenges for both manual and automatic data collection. This paper aims to address this challenge. Both theoretically and empirically, we show that an implicit PRM can be obtained at no additional cost, by simply training an ORM on the cheaper response-level labels. The only assumption is to parameterize the outcome reward as the log-likelihood ratios of the policy and reference models, which can be optimized regardless of the specific choice of loss objectives. In experiments, we instantiate our implicit PRMs with various objectives and evaluate their performance on MATH. We show that our implicit PRM outperforms a strong MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the training data. Its performance can be further improved with majority voting. We further find that scaling up instructions and responses benefits our implicit PRM, and the latter brings a larger gain. Particularly, we find that our implicit PRM, when instantiated with the cross-entropy (CE) loss, is more data-efficient and can keep improving generation models even when trained with only one response per instruction, the setup that suffers from extreme data scarcity and imbalance. Further, instructions should be relevant to downstream tasks while the diversity of responses does not bring gains. Surprisingly, training on extra Math-Shepherd step labels brings no further improvements to our implicit PRM trained on only outcome data. We hope that our work will encourage a rethinking of PRM training approaches and contribute to making training PRMs more accessible.

Summary

AI-Generated Summary

PDF352December 4, 2024