SPARK: Recompensas Processuais Graduais para Aprendizagem por Reforço Livre de Referência

Resumo

Os modelos de recompensa de processo (PRMs) que oferecem *feedback* denso ao nível da etapa têm mostrado potencial para a aprendizagem por reforço, mas a sua adoção permanece limitada pela necessidade de anotações detalhadas por etapa ou de referências de verdade absoluta (*ground truth*), ambas dispendiosas. Propomos o SPARK: uma estrutura de três fases em que, na primeira fase, um modelo gerador produz soluções diversas e um modelo verificador as avalia usando escalonamento paralelo (autoconsistência) e escalonamento sequencial (metacrítica). Na segunda fase, usamos essas saídas de verificação como dados de treino sintéticos para afinar modelos generativos de recompensa de processo, que subsequentemente servem como sinais de recompensa durante o treino. Mostramos que agregar múltiplas verificações independentes ao nível da etapa produz dados de treino para modelos de recompensa de processo que superam a supervisão baseada em resultados de verdade absoluta, atingindo 67,5 de F1 no ProcessBench (um benchmark para identificar etapas errôneas no raciocínio matemático), em comparação com 66,4 para o treino guiado por referência e 61,9 para o GPT-4o. Na fase final, aplicamos o nosso PRM generativo com verificação de cadeia de pensamento (PRM-CoT) como modelo de recompensa em experiências de aprendizagem por reforço sobre raciocínio matemático, e introduzimos restrições de formato para prevenir a exploração indevida da recompensa (*reward hacking*). Usando o Qwen2.5-Math-7B, alcançamos uma precisão média de 47,4% em seis benchmarks de raciocínio matemático, superando o método RLVR baseado em verdade absoluta (43,9%). O nosso trabalho permite um treino de aprendizagem por reforço sem referências que excede os métodos baseados em verdade absoluta, abrindo novas possibilidades para domínios que carecem de respostas verificáveis ou de verdade absoluta acessível.

English

Process reward models (PRMs) that provide dense, step-level feedback have shown promise for reinforcement learning, yet their adoption remains limited by the need for expensive step-level annotations or ground truth references. We propose SPARK: a three-stage framework where in the first stage a generator model produces diverse solutions and a verifier model evaluates them using parallel scaling (self-consistency) and sequential scaling (meta-critique). In the second stage, we use these verification outputs as synthetic training data to fine-tune generative process reward models, which subsequently serve as reward signals during training. We show that aggregating multiple independent verifications at the step level produces training data for process reward models that surpass ground-truth outcome supervision, achieving 67.5 F1 on ProcessBench (a benchmark for identifying erroneous steps in mathematical reasoning) compared to 66.4 for reference-guided training and 61.9 for GPT-4o. In the final stage, we apply our generative PRM with chain-of-thought verification (PRM-CoT) as the reward model in RL experiments on mathematical reasoning, and introduce format constraints to prevent reward hacking. Using Qwen2.5-Math-7B, we achieve 47.4% average accuracy across six mathematical reasoning benchmarks, outperforming ground-truth-based RLVR (43.9%). Our work enables reference-free RL training that exceeds ground-truth methods, opening new possibilities for domains lacking verifiable answers or accessible ground truth.

SPARK: Recompensas Processuais Graduais para Aprendizagem por Reforço Livre de Referência

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Resumo

Support