Beloningen zonder labels voor processen
Free Process Rewards without Process Labels
December 2, 2024
Auteurs: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI
Samenvatting
In tegenstelling tot zijn tegenhanger uitkomstbeloningsmodellen (ORM's), die de volledige antwoorden evalueren, beoordeelt een procesbeloningsmodel (PRM) een redeneertraject stap voor stap, waardoor dichtere en fijnkorreligere beloningen worden gegeven. Het trainen van een PRM vereist echter labels die geannoteerd zijn op elk tussenliggend punt, wat aanzienlijke uitdagingen met zich meebrengt voor zowel handmatige als automatische gegevensverzameling. Dit artikel heeft tot doel deze uitdaging aan te pakken. Zowel theoretisch als empirisch tonen we aan dat een impliciet PRM zonder extra kosten kan worden verkregen door eenvoudigweg een ORM te trainen op de goedkopere responsniveau-labels. De enige aanname is om de uitkomstbeloning te parametriseren als de log-waarschijnlijkheidsverhoudingen van de beleids- en referentiemodellen, die geoptimaliseerd kunnen worden ongeacht de specifieke keuze van verliesdoelstellingen. In experimenten instantiëren we onze impliciete PRM's met verschillende doelstellingen en evalueren hun prestaties op MATH. We tonen aan dat onze impliciete PRM beter presteert dan een sterke op MCTS gebaseerde baseline à la Math-Shepherd met minder dan 1/38 van de trainingsgegevens. De prestaties kunnen verder worden verbeterd met meerderheidsstemming. We ontdekken verder dat het opschalen van instructies en antwoorden voordelig is voor onze impliciete PRM, waarbij het laatste een grotere winst oplevert. In het bijzonder blijkt dat onze impliciete PRM, wanneer geïnstantieerd met het kruis-entropie (CE) verlies, meer gegevensefficiënt is en generatiemodellen blijft verbeteren, zelfs wanneer getraind met slechts één respons per instructie, de opstelling die lijdt onder extreme gegevensschaarste en onevenwichtigheid. Verder moeten instructies relevant zijn voor downstreamtaken, terwijl de diversiteit van antwoorden geen voordelen oplevert. Verrassend genoeg brengt training op extra Math-Shepherd staplabels geen verdere verbeteringen aan onze impliciete PRM die alleen is getraind op uitkomstgegevens. We hopen dat ons werk zal bijdragen aan een heroverweging van PRM-trainingsbenaderingen en zal bijdragen aan het toegankelijker maken van het trainen van PRM's.
English
Different from its counterpart outcome reward models (ORMs), which evaluate
the entire responses, a process reward model (PRM) scores a reasoning
trajectory step by step, providing denser and more fine grained rewards.
However, training a PRM requires labels annotated at every intermediate step,
presenting significant challenges for both manual and automatic data
collection. This paper aims to address this challenge. Both theoretically and
empirically, we show that an implicit PRM can be obtained at no
additional cost, by simply training an ORM on the cheaper response-level
labels. The only assumption is to parameterize the outcome reward as the
log-likelihood ratios of the policy and reference models, which can be
optimized regardless of the specific choice of loss objectives. In experiments,
we instantiate our implicit PRMs with various objectives and evaluate their
performance on MATH. We show that our implicit PRM outperforms a strong
MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the
training data. Its performance can be further improved with majority voting. We
further find that scaling up instructions and responses benefits our implicit
PRM, and the latter brings a larger gain. Particularly, we find that our
implicit PRM, when instantiated with the cross-entropy (CE) loss, is more
data-efficient and can keep improving generation models even when trained with
only one response per instruction, the setup that suffers from extreme data
scarcity and imbalance. Further, instructions should be relevant to downstream
tasks while the diversity of responses does not bring gains. Surprisingly,
training on extra Math-Shepherd step labels brings no further improvements to
our implicit PRM trained on only outcome data. We hope that our work will
encourage a rethinking of PRM training approaches and contribute to making
training PRMs more accessible.