Méthodes basées sur l'incertitude pour la construction automatisée de données de récompense de processus et l'agrégation des sorties en raisonnement mathématique
Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning
August 3, 2025
papers.authors: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
papers.abstract
Les grands modèles de langage ont démontré des capacités remarquables dans les tâches complexes de raisonnement mathématique, mais ils génèrent inévitablement des erreurs tout au long des solutions à étapes multiples. Les modèles de récompense au niveau du processus (PRMs) ont montré un grand potentiel en fournissant une supervision et une évaluation à chaque étape intermédiaire, améliorant ainsi efficacement les capacités de raisonnement des modèles. Cependant, l'entraînement de PRMs efficaces nécessite des données de récompense de processus de haute qualité, et les méthodes existantes pour construire de telles données sont souvent laborieuses ou inefficaces. Dans cet article, nous proposons un cadre piloté par l'incertitude pour la construction automatisée de données de récompense de processus, englobant à la fois les processus de génération et d'annotation des données pour les PRMs. De plus, nous identifions les limites du vote majoritaire et des PRMs, et introduisons deux méthodes génériques d'agrégation de sortie prenant en compte l'incertitude : le Vote Hybride de Récompense Majoritaire et le Vote Pondéré de Fréquence de Récompense, qui combinent les forces du vote majoritaire avec celles des PRMs. Des expériences approfondies sur ProcessBench, MATH et GSMPlus montrent l'efficacité et l'efficience du cadre de construction de données PRM proposé, et démontrent que les deux méthodes d'agrégation de sortie améliorent davantage les capacités de raisonnement mathématique à travers divers PRMs. Le code et les données seront disponibles publiquement à l'adresse https://github.com/Jiuzhouh/UnPRM.
English
Large language models have demonstrated remarkable capabilities in complex
mathematical reasoning tasks, but they inevitably generate errors throughout
multi-step solutions. Process-level Reward Models (PRMs) have shown great
promise by providing supervision and evaluation at each intermediate step,
thereby effectively improving the models' reasoning abilities. However,
training effective PRMs requires high-quality process reward data, yet existing
methods for constructing such data are often labour-intensive or inefficient.
In this paper, we propose an uncertainty-driven framework for automated process
reward data construction, encompassing both data generation and annotation
processes for PRMs. Additionally, we identify the limitations of both majority
vote and PRMs, and introduce two generic uncertainty-aware output aggregation
methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which
combine the strengths of majority vote with PRMs. Extensive experiments on
ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the
proposed PRM data construction framework, and demonstrate that the two output
aggregation methods further improve the mathematical reasoning abilities across
diverse PRMs. The code and data will be publicly available at
https://github.com/Jiuzhouh/UnPRM.