Metodi Basati sull'Incertezza per la Costruzione Automatica di Dati di Ricompensa dei Processi e l'Aggregazione degli Output nel Ragionamento Matematico

Abstract

I grandi modelli linguistici hanno dimostrato capacità notevoli nei compiti di ragionamento matematico complesso, ma inevitabilmente generano errori durante soluzioni a più passaggi. I Modelli di Ricompensa a Livello di Processo (PRM) hanno mostrato grande potenziale fornendo supervisione e valutazione ad ogni passaggio intermedio, migliorando così efficacemente le capacità di ragionamento dei modelli. Tuttavia, l'addestramento di PRM efficaci richiede dati di ricompensa di processo di alta qualità, eppure i metodi esistenti per costruire tali dati sono spesso laboriosi o inefficienti. In questo articolo, proponiamo un framework guidato dall'incertezza per la costruzione automatizzata di dati di ricompensa di processo, che comprende sia i processi di generazione che di annotazione dei dati per i PRM. Inoltre, identifichiamo i limiti sia del voto a maggioranza che dei PRM, e introduciamo due metodi generici di aggregazione dell'output consapevoli dell'incertezza: Hybrid Majority Reward Vote e Weighted Reward Frequency Vote, che combinano i punti di forza del voto a maggioranza con i PRM. Esperimenti estesi su ProcessBench, MATH e GSMPlus dimostrano l'efficacia e l'efficienza del framework proposto per la costruzione di dati PRM, e mostrano che i due metodi di aggregazione dell'output migliorano ulteriormente le capacità di ragionamento matematico attraverso diversi PRM. Il codice e i dati saranno pubblicamente disponibili su https://github.com/Jiuzhouh/UnPRM.

English

Large language models have demonstrated remarkable capabilities in complex mathematical reasoning tasks, but they inevitably generate errors throughout multi-step solutions. Process-level Reward Models (PRMs) have shown great promise by providing supervision and evaluation at each intermediate step, thereby effectively improving the models' reasoning abilities. However, training effective PRMs requires high-quality process reward data, yet existing methods for constructing such data are often labour-intensive or inefficient. In this paper, we propose an uncertainty-driven framework for automated process reward data construction, encompassing both data generation and annotation processes for PRMs. Additionally, we identify the limitations of both majority vote and PRMs, and introduce two generic uncertainty-aware output aggregation methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which combine the strengths of majority vote with PRMs. Extensive experiments on ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the proposed PRM data construction framework, and demonstrate that the two output aggregation methods further improve the mathematical reasoning abilities across diverse PRMs. The code and data will be publicly available at https://github.com/Jiuzhouh/UnPRM.

Metodi Basati sull'Incertezza per la Costruzione Automatica di Dati di Ricompensa dei Processi e l'Aggregazione degli Output nel Ragionamento Matematico

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning

Abstract

Support