GenPRM: Schaalbaarheid van testtijdberekening voor procesbeloningsmodellen via generatief redeneren
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
April 1, 2025
Auteurs: Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou
cs.AI
Samenvatting
Recente ontwikkelingen in Large Language Models (LLMs) hebben aangetoond dat het veelbelovend is om Process Reward Models (PRMs) als verificatiemodellen te gebruiken om de prestaties van LLMs te verbeteren. Huidige PRMs kampen echter met drie belangrijke uitdagingen: (1) beperkte procesbegeleiding en generalisatiecapaciteiten, (2) afhankelijkheid van voorspellingen van scalaire waarden zonder gebruik te maken van de generatieve mogelijkheden van LLMs, en (3) onvermogen om de rekencapaciteit van PRMs tijdens testtijd op te schalen. In dit werk introduceren we GenPRM, een generatief procesbeloningsmodel dat expliciete Chain-of-Thought (CoT)-redenering uitvoert met codeverificatie voordat het een oordeel geeft voor elke redeneerstap. Om hoogwaardige procesbegeleidingslabels en redeneringsdata te verkrijgen, stellen we Relative Progress Estimation (RPE) en een redeneringssyntheseframework voor dat codeverificatie integreert. Experimentele resultaten op ProcessBench en verschillende wiskundige redeneertaken laten zien dat GenPRM aanzienlijk beter presteert dan eerdere PRMs met slechts 23K trainingsdata uit de MATH-dataset. Door opschaling tijdens testtijd presteert een 1,5B GenPRM beter dan GPT-4o, en een 7B GenPRM overtreft Qwen2.5-Math-PRM-72B op ProcessBench. Daarnaast toont GenPRM sterke capaciteiten om als criticusmodel te dienen voor de verfijning van beleidsmodellen. Dit werk vestigt een nieuw paradigma voor procesbegeleiding dat de kloof overbrugt tussen PRMs en criticusmodellen in LLMs. Onze code, model en data zullen beschikbaar zijn op https://ryanliu112.github.io/GenPRM.
English
Recent advancements in Large Language Models (LLMs) have shown that it is
promising to utilize Process Reward Models (PRMs) as verifiers to enhance the
performance of LLMs. However, current PRMs face three key challenges: (1)
limited process supervision and generalization capabilities, (2) dependence on
scalar value prediction without leveraging the generative abilities of LLMs,
and (3) inability to scale the test-time compute of PRMs. In this work, we
introduce GenPRM, a generative process reward model that performs explicit
Chain-of-Thought (CoT) reasoning with code verification before providing
judgment for each reasoning step. To obtain high-quality process supervision
labels and rationale data, we propose Relative Progress Estimation (RPE) and a
rationale synthesis framework that incorporates code verification. Experimental
results on ProcessBench and several mathematical reasoning tasks show that
GenPRM significantly outperforms prior PRMs with only 23K training data from
MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and
a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally,
GenPRM demonstrates strong abilities to serve as a critic model for policy
model refinement. This work establishes a new paradigm for process supervision
that bridges the gap between PRMs and critic models in LLMs. Our code, model,
and data will be available in https://ryanliu112.github.io/GenPRM.Summary
AI-Generated Summary