GenPRM: Schaalbaarheid van testtijdberekening voor procesbeloningsmodellen via generatief redeneren

Samenvatting

Recente ontwikkelingen in Large Language Models (LLMs) hebben aangetoond dat het veelbelovend is om Process Reward Models (PRMs) als verificatiemodellen te gebruiken om de prestaties van LLMs te verbeteren. Huidige PRMs kampen echter met drie belangrijke uitdagingen: (1) beperkte procesbegeleiding en generalisatiecapaciteiten, (2) afhankelijkheid van voorspellingen van scalaire waarden zonder gebruik te maken van de generatieve mogelijkheden van LLMs, en (3) onvermogen om de rekencapaciteit van PRMs tijdens testtijd op te schalen. In dit werk introduceren we GenPRM, een generatief procesbeloningsmodel dat expliciete Chain-of-Thought (CoT)-redenering uitvoert met codeverificatie voordat het een oordeel geeft voor elke redeneerstap. Om hoogwaardige procesbegeleidingslabels en redeneringsdata te verkrijgen, stellen we Relative Progress Estimation (RPE) en een redeneringssyntheseframework voor dat codeverificatie integreert. Experimentele resultaten op ProcessBench en verschillende wiskundige redeneertaken laten zien dat GenPRM aanzienlijk beter presteert dan eerdere PRMs met slechts 23K trainingsdata uit de MATH-dataset. Door opschaling tijdens testtijd presteert een 1,5B GenPRM beter dan GPT-4o, en een 7B GenPRM overtreft Qwen2.5-Math-PRM-72B op ProcessBench. Daarnaast toont GenPRM sterke capaciteiten om als criticusmodel te dienen voor de verfijning van beleidsmodellen. Dit werk vestigt een nieuw paradigma voor procesbegeleiding dat de kloof overbrugt tussen PRMs en criticusmodellen in LLMs. Onze code, model en data zullen beschikbaar zijn op https://ryanliu112.github.io/GenPRM.

English

Recent advancements in Large Language Models (LLMs) have shown that it is promising to utilize Process Reward Models (PRMs) as verifiers to enhance the performance of LLMs. However, current PRMs face three key challenges: (1) limited process supervision and generalization capabilities, (2) dependence on scalar value prediction without leveraging the generative abilities of LLMs, and (3) inability to scale the test-time compute of PRMs. In this work, we introduce GenPRM, a generative process reward model that performs explicit Chain-of-Thought (CoT) reasoning with code verification before providing judgment for each reasoning step. To obtain high-quality process supervision labels and rationale data, we propose Relative Progress Estimation (RPE) and a rationale synthesis framework that incorporates code verification. Experimental results on ProcessBench and several mathematical reasoning tasks show that GenPRM significantly outperforms prior PRMs with only 23K training data from MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally, GenPRM demonstrates strong abilities to serve as a critic model for policy model refinement. This work establishes a new paradigm for process supervision that bridges the gap between PRMs and critic models in LLMs. Our code, model, and data will be available in https://ryanliu112.github.io/GenPRM.

GenPRM: Schaalbaarheid van testtijdberekening voor procesbeloningsmodellen via generatief redeneren

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Samenvatting

Support