De Lessen van het Ontwikkelen van Beloningsmodellen in het Wiskundig Redeneren
The Lessons of Developing Process Reward Models in Mathematical Reasoning
January 13, 2025
Auteurs: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Samenvatting
Procesbeloningsmodellen (PRM's) komen naar voren als een veelbelovende benadering voor procesbegeleiding bij wiskundige redenering van Grote Taalmodellen (LLM's), die tot doel hebben om tussenliggende fouten in de redeneerprocessen te identificeren en te verminderen. De ontwikkeling van effectieve PRM's staat echter voor aanzienlijke uitdagingen, met name op het gebied van gegevensannotatie en evaluatiemethodologieën. In dit artikel tonen we aan, door uitgebreide experimenten, dat de veelgebruikte Monte Carlo (MC) schattingsgebaseerde gegevenssynthese voor PRM's doorgaans inferieure prestaties en generalisatie oplevert in vergelijking met LLM-als-rechter en menselijke annotatiemethoden. MC-schatting vertrouwt op voltooiingsmodellen om de juistheid van de huidige stap te evalueren, wat leidt tot onnauwkeurige stapverificatie. Bovendien identificeren we mogelijke vooroordelen in conventionele Best-of-N (BoN) evaluatiestrategieën voor PRM's: (1) De onbetrouwbare beleidsmodellen genereren reacties met juiste antwoorden maar gebrekkige processen, wat leidt tot een mismatch tussen de evaluatiecriteria van BoN en de PRM-doelstellingen van procesverificatie. (2) De tolerantie van PRM's voor dergelijke reacties leidt tot opgeblazen BoN-scores. (3) Bestaande PRM's hebben een aanzienlijk deel van minimale scores geconcentreerd op de uiteindelijke antwoordstappen, wat wijst op de verschuiving van proces naar op uitkomst gebaseerde beoordeling in BoN-geoptimaliseerde PRM's. Om deze uitdagingen aan te pakken, ontwikkelen we een consensusfiltermechanisme dat MC-schatting effectief integreert met LLM-als-rechter en pleiten voor een meer uitgebreid evaluatiekader dat responsniveau- en stapniveaumetrieken combineert. Op basis van deze mechanismen verbeteren we aanzienlijk zowel de modelprestaties als de gegevensefficiëntie in de BoN-evaluatie en de stapsgewijze foutidentificatietaak. Tot slot brengen we een nieuw toonaangevend PRM uit dat bestaande open-source alternatieven overtreft en praktische richtlijnen biedt voor toekomstig onderzoek naar het bouwen van procesbegeleidingsmodellen.
English
Process Reward Models (PRMs) emerge as a promising approach for process
supervision in mathematical reasoning of Large Language Models (LLMs), which
aim to identify and mitigate intermediate errors in the reasoning processes.
However, the development of effective PRMs faces significant challenges,
particularly in data annotation and evaluation methodologies. In this paper,
through extensive experiments, we demonstrate that commonly used Monte Carlo
(MC) estimation-based data synthesis for PRMs typically yields inferior
performance and generalization compared to LLM-as-a-judge and human annotation
methods. MC estimation relies on completion models to evaluate current-step
correctness, leading to inaccurate step verification. Furthermore, we identify
potential biases in conventional Best-of-N (BoN) evaluation strategies for
PRMs: (1) The unreliable policy models generate responses with correct answers
but flawed processes, leading to a misalignment between the evaluation criteria
of BoN and the PRM objectives of process verification. (2) The tolerance of
PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a
significant proportion of minimum scores concentrated on the final answer
steps, revealing the shift from process to outcome-based assessment in BoN
Optimized PRMs. To address these challenges, we develop a consensus filtering
mechanism that effectively integrates MC estimation with LLM-as-a-judge and
advocates a more comprehensive evaluation framework that combines
response-level and step-level metrics. Based on the mechanisms, we
significantly improve both model performance and data efficiency in the BoN
evaluation and the step-wise error identification task. Finally, we release a
new state-of-the-art PRM that outperforms existing open-source alternatives and
provides practical guidelines for future research in building process
supervision models.Summary
AI-Generated Summary