SPARK: Stapsgewijze Procesbewuste Beloningen voor Referentievrije Versterkingsleren

Samenvatting

Procesbeloningsmodellen (PRM's) die gedetailleerde, stap-voor-stap feedback geven, hebben potentie getoond voor reinforcement learning, maar hun adoptie wordt beperkt door de noodzaak van dure annotaties per stap of grondwaar-referenties. Wij stellen SPARK voor: een raamwerk met drie fasen waarin in de eerste fase een generatormodel diverse oplossingen produceert en een verifiëermodel deze evalueert met behulp van parallelle schaling (zelfconsistentie) en sequentiële schaling (meta-critique). In de tweede fase gebruiken we deze verificatie-uitkomsten als synthetische trainingsdata om generatieve procesbeloningsmodellen te finetunen, die vervolgens als beloningssignalen dienen tijdens de training. Wij tonen aan dat het aggregeren van meerdere onafhankelijke verificaties op stapniveau trainingsdata voor procesbeloningsmodellen oplevert die superieur zijn aan supervisie met grondwaar-uitkomsten, met een score van 67,5 F1 op ProcessBench (een benchmark voor het identificeren van foutieve stappen in wiskundig redeneren) vergeleken met 66,4 voor referentie-gestuurde training en 61,9 voor GPT-4o. In de laatste fase passen we ons generatieve PRM met chain-of-thought verificatie (PRM-CoT) toe als beloningsmodel in RL-experimenten voor wiskundig redeneren, en introduceren we formaatbeperkingen om reward hacking te voorkomen. Met Qwen2.5-Math-7B behalen we een gemiddelde nauwkeurigheid van 47,4% over zes wiskundige redeneerbenchmarks, wat beter is dan op grondwaar gebaseerde RLVR (43,9%). Ons werk maakt referentievrije RL-training mogelijk die grondwaarmethoden overtreft, wat nieuwe mogelijkheden opent voor domeinen waar verifieerbare antwoorden of toegankelijke grondwaar ontbreekt.

English

Process reward models (PRMs) that provide dense, step-level feedback have shown promise for reinforcement learning, yet their adoption remains limited by the need for expensive step-level annotations or ground truth references. We propose SPARK: a three-stage framework where in the first stage a generator model produces diverse solutions and a verifier model evaluates them using parallel scaling (self-consistency) and sequential scaling (meta-critique). In the second stage, we use these verification outputs as synthetic training data to fine-tune generative process reward models, which subsequently serve as reward signals during training. We show that aggregating multiple independent verifications at the step level produces training data for process reward models that surpass ground-truth outcome supervision, achieving 67.5 F1 on ProcessBench (a benchmark for identifying erroneous steps in mathematical reasoning) compared to 66.4 for reference-guided training and 61.9 for GPT-4o. In the final stage, we apply our generative PRM with chain-of-thought verification (PRM-CoT) as the reward model in RL experiments on mathematical reasoning, and introduce format constraints to prevent reward hacking. Using Qwen2.5-Math-7B, we achieve 47.4% average accuracy across six mathematical reasoning benchmarks, outperforming ground-truth-based RLVR (43.9%). Our work enables reference-free RL training that exceeds ground-truth methods, opening new possibilities for domains lacking verifiable answers or accessible ground truth.

SPARK: Stapsgewijze Procesbewuste Beloningen voor Referentievrije Versterkingsleren

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Samenvatting

Support