プロセスラベルなしでのプロセス報酬の自由化
Free Process Rewards without Process Labels
December 2, 2024
著者: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI
要旨
対応する結果報酬モデル(ORM)が全応答を評価するのに対し、プロセス報酬モデル(PRM)は推論経路を段階的にスコア付けし、より密度の高い細かい報酬を提供します。ただし、PRMのトレーニングには中間ステップごとに注釈付きのラベルが必要であり、手動および自動データ収集の両方において重要な課題が生じます。本論文では、この課題に取り組むことを目的としています。理論的および実証的に、ORMをより安価な応答レベルのラベルで単純にトレーニングすることで、追加コストなしに暗黙のPRMを得ることができることを示します。唯一の仮定は、アウトカム報酬をポリシーとリファレンスモデルの対数尤度比としてパラメータ化することであり、これは損失目標の具体的な選択に関係なく最適化できます。実験では、異なる目的で暗黙のPRMを具体化し、MATHでのパフォーマンスを評価します。暗黙のPRMが、トレーニングデータの1/38未満を使用して、Math-Shepherdによる強力なMCTSベースラインを上回ることを示します。そのパフォーマンスは、過半数投票でさらに向上させることができます。また、指示と応答のスケーリングアップが暗黙のPRMに利益をもたらし、後者の方が大きな利益をもたらします。特に、CE(交差エントロピー)損失で具体化された暗黙のPRMは、データ効率が高く、指示ごとに1つの応答でトレーニングされても生成モデルを改善し続けることができます。指示は下流タスクに関連しているべきであり、応答の多様性は利益をもたらさないことが分かりました。驚くべきことに、Math-Shepherdのステップラベルを追加しても、アウトカムデータのみでトレーニングされた暗黙のPRMにさらなる改善がもたらされることはありません。私たちの研究がPRMのトレーニングアプローチの再考を促し、PRMのトレーニングをよりアクセスしやすくすることに貢献することを願っています。
English
Different from its counterpart outcome reward models (ORMs), which evaluate
the entire responses, a process reward model (PRM) scores a reasoning
trajectory step by step, providing denser and more fine grained rewards.
However, training a PRM requires labels annotated at every intermediate step,
presenting significant challenges for both manual and automatic data
collection. This paper aims to address this challenge. Both theoretically and
empirically, we show that an implicit PRM can be obtained at no
additional cost, by simply training an ORM on the cheaper response-level
labels. The only assumption is to parameterize the outcome reward as the
log-likelihood ratios of the policy and reference models, which can be
optimized regardless of the specific choice of loss objectives. In experiments,
we instantiate our implicit PRMs with various objectives and evaluate their
performance on MATH. We show that our implicit PRM outperforms a strong
MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the
training data. Its performance can be further improved with majority voting. We
further find that scaling up instructions and responses benefits our implicit
PRM, and the latter brings a larger gain. Particularly, we find that our
implicit PRM, when instantiated with the cross-entropy (CE) loss, is more
data-efficient and can keep improving generation models even when trained with
only one response per instruction, the setup that suffers from extreme data
scarcity and imbalance. Further, instructions should be relevant to downstream
tasks while the diversity of responses does not bring gains. Surprisingly,
training on extra Math-Shepherd step labels brings no further improvements to
our implicit PRM trained on only outcome data. We hope that our work will
encourage a rethinking of PRM training approaches and contribute to making
training PRMs more accessible.Summary
AI-Generated Summary