ChatPaper.aiChatPaper

Méthodes basées sur l'incertitude pour la construction automatisée de données de récompense de processus et l'agrégation des sorties en raisonnement mathématique

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning

August 3, 2025
papers.authors: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

papers.abstract

Les grands modèles de langage ont démontré des capacités remarquables dans les tâches complexes de raisonnement mathématique, mais ils génèrent inévitablement des erreurs tout au long des solutions à étapes multiples. Les modèles de récompense au niveau du processus (PRMs) ont montré un grand potentiel en fournissant une supervision et une évaluation à chaque étape intermédiaire, améliorant ainsi efficacement les capacités de raisonnement des modèles. Cependant, l'entraînement de PRMs efficaces nécessite des données de récompense de processus de haute qualité, et les méthodes existantes pour construire de telles données sont souvent laborieuses ou inefficaces. Dans cet article, nous proposons un cadre piloté par l'incertitude pour la construction automatisée de données de récompense de processus, englobant à la fois les processus de génération et d'annotation des données pour les PRMs. De plus, nous identifions les limites du vote majoritaire et des PRMs, et introduisons deux méthodes génériques d'agrégation de sortie prenant en compte l'incertitude : le Vote Hybride de Récompense Majoritaire et le Vote Pondéré de Fréquence de Récompense, qui combinent les forces du vote majoritaire avec celles des PRMs. Des expériences approfondies sur ProcessBench, MATH et GSMPlus montrent l'efficacité et l'efficience du cadre de construction de données PRM proposé, et démontrent que les deux méthodes d'agrégation de sortie améliorent davantage les capacités de raisonnement mathématique à travers divers PRMs. Le code et les données seront disponibles publiquement à l'adresse https://github.com/Jiuzhouh/UnPRM.
English
Large language models have demonstrated remarkable capabilities in complex mathematical reasoning tasks, but they inevitably generate errors throughout multi-step solutions. Process-level Reward Models (PRMs) have shown great promise by providing supervision and evaluation at each intermediate step, thereby effectively improving the models' reasoning abilities. However, training effective PRMs requires high-quality process reward data, yet existing methods for constructing such data are often labour-intensive or inefficient. In this paper, we propose an uncertainty-driven framework for automated process reward data construction, encompassing both data generation and annotation processes for PRMs. Additionally, we identify the limitations of both majority vote and PRMs, and introduce two generic uncertainty-aware output aggregation methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which combine the strengths of majority vote with PRMs. Extensive experiments on ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the proposed PRM data construction framework, and demonstrate that the two output aggregation methods further improve the mathematical reasoning abilities across diverse PRMs. The code and data will be publicly available at https://github.com/Jiuzhouh/UnPRM.
PDF02August 5, 2025