ChatPaper.aiChatPaper

Métodos Baseados em Incerteza para Construção Automatizada de Dados de Recompensa de Processo e Agregação de Saída em Raciocínio Matemático

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning

August 3, 2025
Autores: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

Resumo

Modelos de linguagem de grande escala têm demonstrado capacidades notáveis em tarefas complexas de raciocínio matemático, mas inevitavelmente geram erros ao longo de soluções com múltiplos passos. Modelos de Recompensa em Nível de Processo (PRMs, na sigla em inglês) têm mostrado grande potencial ao fornecer supervisão e avaliação em cada etapa intermediária, melhorando efetivamente as habilidades de raciocínio dos modelos. No entanto, treinar PRMs eficazes requer dados de recompensa de processo de alta qualidade, e os métodos existentes para construir esses dados são frequentemente trabalhosos ou ineficientes. Neste artigo, propomos uma estrutura orientada por incerteza para a construção automatizada de dados de recompensa de processo, abrangendo tanto a geração quanto a anotação de dados para PRMs. Além disso, identificamos as limitações tanto do voto majoritário quanto dos PRMs e introduzimos dois métodos genéricos de agregação de saída conscientes da incerteza: Voto Híbrido de Recompensa Majoritária e Voto Ponderado de Frequência de Recompensa, que combinam os pontos fortes do voto majoritário com os PRMs. Experimentos extensivos no ProcessBench, MATH e GSMPlus mostram a eficácia e eficiência da estrutura proposta para construção de dados de PRM e demonstram que os dois métodos de agregação de saída melhoram ainda mais as habilidades de raciocínio matemático em diversos PRMs. O código e os dados estarão publicamente disponíveis em https://github.com/Jiuzhouh/UnPRM.
English
Large language models have demonstrated remarkable capabilities in complex mathematical reasoning tasks, but they inevitably generate errors throughout multi-step solutions. Process-level Reward Models (PRMs) have shown great promise by providing supervision and evaluation at each intermediate step, thereby effectively improving the models' reasoning abilities. However, training effective PRMs requires high-quality process reward data, yet existing methods for constructing such data are often labour-intensive or inefficient. In this paper, we propose an uncertainty-driven framework for automated process reward data construction, encompassing both data generation and annotation processes for PRMs. Additionally, we identify the limitations of both majority vote and PRMs, and introduce two generic uncertainty-aware output aggregation methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which combine the strengths of majority vote with PRMs. Extensive experiments on ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the proposed PRM data construction framework, and demonstrate that the two output aggregation methods further improve the mathematical reasoning abilities across diverse PRMs. The code and data will be publicly available at https://github.com/Jiuzhouh/UnPRM.
PDF02August 5, 2025