ChatPaper.aiChatPaper

Métodos Basados en Incertidumbre para la Construcción Automatizada de Datos de Recompensa de Procesos y Agregación de Salidas en Razonamiento Matemático

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning

August 3, 2025
Autores: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

Resumen

Los modelos de lenguaje de gran escala han demostrado capacidades notables en tareas complejas de razonamiento matemático, pero inevitablemente generan errores a lo largo de soluciones de múltiples pasos. Los Modelos de Recompensa a Nivel de Proceso (PRMs, por sus siglas en inglés) han mostrado un gran potencial al proporcionar supervisión y evaluación en cada paso intermedio, mejorando así de manera efectiva las habilidades de razonamiento de los modelos. Sin embargo, entrenar PRMs efectivos requiere datos de recompensa de proceso de alta calidad, y los métodos existentes para construir dichos datos suelen ser laboriosos o ineficientes. En este artículo, proponemos un marco basado en la incertidumbre para la construcción automatizada de datos de recompensa de proceso, abarcando tanto la generación como los procesos de anotación para PRMs. Además, identificamos las limitaciones tanto del voto mayoritario como de los PRMs, e introducimos dos métodos genéricos de agregación de salidas conscientes de la incertidumbre: Voto Híbrido de Recompensa Mayoritaria y Voto Ponderado de Frecuencia de Recompensa, que combinan las fortalezas del voto mayoritario con los PRMs. Experimentos extensivos en ProcessBench, MATH y GSMPlus muestran la efectividad y eficiencia del marco propuesto para la construcción de datos de PRM, y demuestran que los dos métodos de agregación de salidas mejoran aún más las habilidades de razonamiento matemático en diversos PRMs. El código y los datos estarán disponibles públicamente en https://github.com/Jiuzhouh/UnPRM.
English
Large language models have demonstrated remarkable capabilities in complex mathematical reasoning tasks, but they inevitably generate errors throughout multi-step solutions. Process-level Reward Models (PRMs) have shown great promise by providing supervision and evaluation at each intermediate step, thereby effectively improving the models' reasoning abilities. However, training effective PRMs requires high-quality process reward data, yet existing methods for constructing such data are often labour-intensive or inefficient. In this paper, we propose an uncertainty-driven framework for automated process reward data construction, encompassing both data generation and annotation processes for PRMs. Additionally, we identify the limitations of both majority vote and PRMs, and introduce two generic uncertainty-aware output aggregation methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which combine the strengths of majority vote with PRMs. Extensive experiments on ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the proposed PRM data construction framework, and demonstrate that the two output aggregation methods further improve the mathematical reasoning abilities across diverse PRMs. The code and data will be publicly available at https://github.com/Jiuzhouh/UnPRM.
PDF02August 5, 2025