ChatPaper.aiChatPaper

Unsicherheitsbasierte Methoden zur automatisierten Konstruktion von Prozessbelohnungsdaten und Aggregation von Ergebnissen im mathematischen Denken

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning

August 3, 2025
papers.authors: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

papers.abstract

Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei komplexen mathematischen Denkaufgaben gezeigt, erzeugen jedoch zwangsläufig Fehler in mehrstufigen Lösungen. Prozessbezogene Belohnungsmodelle (Process-level Reward Models, PRMs) haben großes Potenzial bewiesen, indem sie Überwachung und Bewertung in jedem Zwischenschritt bereitstellen und dadurch die Denkfähigkeiten der Modelle effektiv verbessern. Allerdings erfordert das Training effektiver PRMs hochwertige prozessbezogene Belohnungsdaten, und bestehende Methoden zur Erstellung solcher Daten sind oft arbeitsintensiv oder ineffizient. In diesem Artikel schlagen wir ein unsicherheitsgetriebenes Framework für die automatisierte Erstellung von prozessbezogenen Belohnungsdaten vor, das sowohl die Datengenerierung als auch den Annotationsprozess für PRMs umfasst. Zudem identifizieren wir die Grenzen sowohl der Mehrheitsentscheidung als auch der PRMs und führen zwei generische, unsicherheitsbewusste Methoden zur Ausgabeaggregation ein: Hybrid Majority Reward Vote und Weighted Reward Frequency Vote, die die Stärken der Mehrheitsentscheidung mit denen der PRMs kombinieren. Umfangreiche Experimente auf ProcessBench, MATH und GSMPlus zeigen die Wirksamkeit und Effizienz des vorgeschlagenen PRM-Datenerstellungsframeworks und demonstrieren, dass die beiden Ausgabeaggregationsmethoden die mathematischen Denkfähigkeiten über verschiedene PRMs hinweg weiter verbessern. Der Code und die Daten werden öffentlich unter https://github.com/Jiuzhouh/UnPRM verfügbar sein.
English
Large language models have demonstrated remarkable capabilities in complex mathematical reasoning tasks, but they inevitably generate errors throughout multi-step solutions. Process-level Reward Models (PRMs) have shown great promise by providing supervision and evaluation at each intermediate step, thereby effectively improving the models' reasoning abilities. However, training effective PRMs requires high-quality process reward data, yet existing methods for constructing such data are often labour-intensive or inefficient. In this paper, we propose an uncertainty-driven framework for automated process reward data construction, encompassing both data generation and annotation processes for PRMs. Additionally, we identify the limitations of both majority vote and PRMs, and introduce two generic uncertainty-aware output aggregation methods: Hybrid Majority Reward Vote and Weighted Reward Frequency Vote, which combine the strengths of majority vote with PRMs. Extensive experiments on ProcessBench, MATH, and GSMPlus show the effectiveness and efficiency of the proposed PRM data construction framework, and demonstrate that the two output aggregation methods further improve the mathematical reasoning abilities across diverse PRMs. The code and data will be publicly available at https://github.com/Jiuzhouh/UnPRM.
PDF02August 5, 2025