SPARK: Ricompense Graduali Basate sul Processo per l'Apprendimento per Rinforzo Senza Riferimento

Abstract

I modelli di ricompensa di processo (PRM) che forniscono feedback denso a livello di passaggio hanno mostrato potenziale per l'apprendimento per rinforzo, ma la loro adozione rimane limitata dalla necessità di costose annotazioni a livello di passaggio o di riferimenti alla verità di base. Proponiamo SPARK: un framework in tre fasi in cui, nella prima fase, un modello generatore produce soluzioni diverse e un modello verificatore le valuta utilizzando il ridimensionamento parallelo (auto-consistenza) e il ridimensionamento sequenziale (meta-critica). Nella seconda fase, utilizziamo questi output di verifica come dati di addestramento sintetici per mettere a punto modelli generativi di ricompensa di processo, che fungono successivamente da segnali di ricompensa durante l'addestramento. Dimostriamo che aggregare multiple verifiche indipendenti a livello di passaggio produce dati di addestramento per modelli di ricompensa di processo che superano la supervisione basata sulla verità di base del risultato, raggiungendo un F1 di 67.5 su ProcessBench (un benchmark per identificare passaggi errati nel ragionamento matematico) rispetto a 66.4 per l'addestramento guidato da riferimento e 61.9 per GPT-4o. Nella fase finale, applichiamo il nostro PRM generativo con verifica a catena di pensiero (PRM-CoT) come modello di ricompensa in esperimenti di RL sul ragionamento matematico e introduciamo vincoli di formato per prevenire il reward hacking. Utilizzando Qwen2.5-Math-7B, raggiungiamo una precisione media del 47.4% su sei benchmark di ragionamento matematico, superando l'RLVR basato sulla verità di base (43.9%). Il nostro lavoro abilita un addestramento RL senza riferimenti che supera i metodi basati sulla verità di base, aprendo nuove possibilità per domini privi di risposte verificabili o di una verità di base accessibile.

English

Process reward models (PRMs) that provide dense, step-level feedback have shown promise for reinforcement learning, yet their adoption remains limited by the need for expensive step-level annotations or ground truth references. We propose SPARK: a three-stage framework where in the first stage a generator model produces diverse solutions and a verifier model evaluates them using parallel scaling (self-consistency) and sequential scaling (meta-critique). In the second stage, we use these verification outputs as synthetic training data to fine-tune generative process reward models, which subsequently serve as reward signals during training. We show that aggregating multiple independent verifications at the step level produces training data for process reward models that surpass ground-truth outcome supervision, achieving 67.5 F1 on ProcessBench (a benchmark for identifying erroneous steps in mathematical reasoning) compared to 66.4 for reference-guided training and 61.9 for GPT-4o. In the final stage, we apply our generative PRM with chain-of-thought verification (PRM-CoT) as the reward model in RL experiments on mathematical reasoning, and introduce format constraints to prevent reward hacking. Using Qwen2.5-Math-7B, we achieve 47.4% average accuracy across six mathematical reasoning benchmarks, outperforming ground-truth-based RLVR (43.9%). Our work enables reference-free RL training that exceeds ground-truth methods, opening new possibilities for domains lacking verifiable answers or accessible ground truth.

SPARK: Ricompense Graduali Basate sul Processo per l'Apprendimento per Rinforzo Senza Riferimento

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Abstract

Support