数学的推論における自動化プロセス報酬データ構築と出力集約のための不確実性ベース手法
Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning
August 3, 2025
著者: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
要旨
大規模言語モデルは複雑な数学的推論タスクにおいて顕著な能力を発揮するが、多段階の解法において誤りを生成することは避けられない。プロセスレベル報酬モデル(PRM)は、各中間ステップで監督と評価を提供することで、モデルの推論能力を効果的に向上させることが示されている。しかし、効果的なPRMを訓練するためには高品質なプロセス報酬データが必要であり、そのようなデータを構築する既存の方法はしばしば労力を要するか非効率的である。本論文では、PRMのためのデータ生成と注釈プロセスを包含する、不確実性駆動型の自動化プロセス報酬データ構築フレームワークを提案する。さらに、多数決とPRMの両方の限界を指摘し、多数決とPRMの長所を組み合わせた2つの汎用的な不確実性を考慮した出力集約方法、ハイブリッド多数決報酬投票と重み付き報酬頻度投票を導入する。ProcessBench、MATH、GSMPlusでの広範な実験により、提案されたPRMデータ構築フレームワークの有効性と効率性が示され、2つの出力集約方法が多様なPRMの数学的推論能力をさらに向上させることが実証された。コードとデータはhttps://github.com/Jiuzhouh/UnPRMで公開される予定である。
English
Large language models have demonstrated remarkable capabilities in complex
mathematical reasoning tasks, but they inevitably generate errors throughout
multi-step solutions. Process-level Reward Models (PRMs) have shown great
promise by providing supervision and evaluation at each intermediate step,
thereby effectively improving the models' reasoning abilities. However,
training effective PRMs requires high-quality process reward data, yet existing
methods for constructing such data are often labour-intensive or inefficient.
In this paper, we propose an uncertainty-driven framework for automated process
reward data construction, encompassing both data generation and annotation
processes for PRMs. Additionally, we identify the limitations of both majority
vote and PRMs, and introduce two generic uncertainty-aware output aggregation
methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which
combine the strengths of majority vote with PRMs. Extensive experiments on
ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the
proposed PRM data construction framework, and demonstrate that the two output
aggregation methods further improve the mathematical reasoning abilities across
diverse PRMs. The code and data will be publicly available at
https://github.com/Jiuzhouh/UnPRM.