Unsicherheitsbasierte Methoden zur automatisierten Konstruktion von Prozessbelohnungsdaten und Aggregation von Ergebnissen im mathematischen Denken
Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning
August 3, 2025
papers.authors: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
papers.abstract
Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei komplexen mathematischen Denkaufgaben gezeigt, erzeugen jedoch zwangsläufig Fehler in mehrstufigen Lösungen. Prozessbezogene Belohnungsmodelle (Process-level Reward Models, PRMs) haben großes Potenzial bewiesen, indem sie Überwachung und Bewertung in jedem Zwischenschritt bereitstellen und dadurch die Denkfähigkeiten der Modelle effektiv verbessern. Allerdings erfordert das Training effektiver PRMs hochwertige prozessbezogene Belohnungsdaten, und bestehende Methoden zur Erstellung solcher Daten sind oft arbeitsintensiv oder ineffizient. In diesem Artikel schlagen wir ein unsicherheitsgetriebenes Framework für die automatisierte Erstellung von prozessbezogenen Belohnungsdaten vor, das sowohl die Datengenerierung als auch den Annotationsprozess für PRMs umfasst. Zudem identifizieren wir die Grenzen sowohl der Mehrheitsentscheidung als auch der PRMs und führen zwei generische, unsicherheitsbewusste Methoden zur Ausgabeaggregation ein: Hybrid Majority Reward Vote und Weighted Reward Frequency Vote, die die Stärken der Mehrheitsentscheidung mit denen der PRMs kombinieren. Umfangreiche Experimente auf ProcessBench, MATH und GSMPlus zeigen die Wirksamkeit und Effizienz des vorgeschlagenen PRM-Datenerstellungsframeworks und demonstrieren, dass die beiden Ausgabeaggregationsmethoden die mathematischen Denkfähigkeiten über verschiedene PRMs hinweg weiter verbessern. Der Code und die Daten werden öffentlich unter https://github.com/Jiuzhouh/UnPRM verfügbar sein.
English
Large language models have demonstrated remarkable capabilities in complex
mathematical reasoning tasks, but they inevitably generate errors throughout
multi-step solutions. Process-level Reward Models (PRMs) have shown great
promise by providing supervision and evaluation at each intermediate step,
thereby effectively improving the models' reasoning abilities. However,
training effective PRMs requires high-quality process reward data, yet existing
methods for constructing such data are often labour-intensive or inefficient.
In this paper, we propose an uncertainty-driven framework for automated process
reward data construction, encompassing both data generation and annotation
processes for PRMs. Additionally, we identify the limitations of both majority
vote and PRMs, and introduce two generic uncertainty-aware output aggregation
methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which
combine the strengths of majority vote with PRMs. Extensive experiments on
ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the
proposed PRM data construction framework, and demonstrate that the two output
aggregation methods further improve the mathematical reasoning abilities across
diverse PRMs. The code and data will be publicly available at
https://github.com/Jiuzhouh/UnPRM.