ChatPaper.aiChatPaper

SPARK: 참조 없는 강화 학습을 위한 단계별 프로세스 인식 보상

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

December 2, 2025
저자: Salman Rahman, Sruthi Gorantla, Arpit Gupta, Swastik Roy, Nanyun Peng, Yang Liu
cs.AI

초록

밀집된 단계별 피드백을 제공하는 프로세스 보상 모델(PRM)은 강화 학습에 유용한 가능성을 보여왔으나, 여전히 비용이 많이 드는 단계별 주석이나 정답 레퍼런스 필요성으로 인해 적용이 제한되고 있습니다. 우리는 SPARK를 제안합니다: 3단계 프레임워크로, 첫 번째 단계에서는 생성기 모델이 다양한 해결책을 생성하고 검증기 모델이 병렬 스케일링(자기 일관성)과 순차적 스케일링(메타 비판)을 사용하여 이를 평가합니다. 두 번째 단계에서는 이러한 검증 출력을 합성 훈련 데이터로 사용하여 생성형 프로세스 보상 모델을 미세 조정하며, 이 모델은 이후 훈련 중 보상 신호로 기능합니다. 우리는 단계별로 여러 독립 검증을 집계하면 정답 결과 지도 학습을 능가하는 프로세스 보상 모델 훈련 데이터가 생성됨을 보여줍니다. ProcessBench(수학적 추론에서 오류가 있는 단계 식별 벤치마크)에서 67.5 F1을 달성했으며, 이는 레퍼런스 기반 훈련(66.4) 및 GPT-4o(61.9)보다 높은 성능입니다. 마지막 단계에서는 생성형 PRM에 사고 연쇄 검증(PRM-CoT)을 적용하여 수학적 추론 RL 실험에서 보상 모델로 사용하고, 보상 해킹을 방지하기 위해 형식 제약을 도입합니다. Qwen2.5-Math-7B를 사용하여 6개 수학적 추론 벤치마크에서 평균 47.4% 정확도를 달성했으며, 정답 기반 RLVR(43.9%)을 능가합니다. 우리의 연구는 정답 방법을 초과하는 레퍼런스 없는 RL 훈련을 가능하게 하여, 검증 가능한 답변이나 접근 가능한 정답이 부족한 분야에 새로운 가능성을 열어줍니다.
English
Process reward models (PRMs) that provide dense, step-level feedback have shown promise for reinforcement learning, yet their adoption remains limited by the need for expensive step-level annotations or ground truth references. We propose SPARK: a three-stage framework where in the first stage a generator model produces diverse solutions and a verifier model evaluates them using parallel scaling (self-consistency) and sequential scaling (meta-critique). In the second stage, we use these verification outputs as synthetic training data to fine-tune generative process reward models, which subsequently serve as reward signals during training. We show that aggregating multiple independent verifications at the step level produces training data for process reward models that surpass ground-truth outcome supervision, achieving 67.5 F1 on ProcessBench (a benchmark for identifying erroneous steps in mathematical reasoning) compared to 66.4 for reference-guided training and 61.9 for GPT-4o. In the final stage, we apply our generative PRM with chain-of-thought verification (PRM-CoT) as the reward model in RL experiments on mathematical reasoning, and introduce format constraints to prevent reward hacking. Using Qwen2.5-Math-7B, we achieve 47.4% average accuracy across six mathematical reasoning benchmarks, outperforming ground-truth-based RLVR (43.9%). Our work enables reference-free RL training that exceeds ground-truth methods, opening new possibilities for domains lacking verifiable answers or accessible ground truth.
PDF102December 10, 2025