在数学推理中开发过程奖励模型的教训The Lessons of Developing Process Reward Models in Mathematical
Reasoning
过程奖励模型(PRMs)已成为大型语言模型(LLMs)数学推理中过程监督的一种有前途的方法,旨在识别和减轻推理过程中的中间错误。然而,有效PRMs的开发面临着重大挑战,特别是在数据标注和评估方法方面。本文通过大量实验表明,通常使用的基于蒙特卡洛(MC)估计的PRMs数据合成通常表现不佳,并且泛化性较LLM作为评判者和人类标注方法差。MC估计依赖完成模型来评估当前步骤的正确性,导致步骤验证不准确。此外,我们发现传统的最佳N(BoN)评估策略中存在潜在偏见:(1)不可靠的策略模型生成具有正确答案但有缺陷过程的响应,导致BoN的评估标准与PRM的过程验证目标之间不一致。 (2)PRMs对此类响应的容忍导致BoN分数被夸大。 (3)现有的PRMs在最终答案步骤上有相当比例的最低分数,揭示了从过程到结果为基础的评估在BoN优化PRMs中的转变。为解决这些挑战,我们开发了一种共识过滤机制,有效地将MC估计与LLM作为评判者相结合,并提倡结合响应级和步骤级指标的更全面的评估框架。基于这些机制,我们显著提高了模型在BoN评估和逐步错误识别任务中的性能和数据效率。最后,我们发布了一个新的最先进PRM,优于现有的开源替代方案,并为未来构建过程监督模型的研究提供了实用指南。