GroundedPRM: Boomgestuurde en Nauwkeurigheidsbewuste Procesbeloningsmodellering voor Stapsgewijs Redeneren
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
October 16, 2025
Auteurs: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI
Samenvatting
Process Reward Models (PRMs) hebben als doel het multi-step redeneren in Large Language Models (LLMs) te verbeteren door tussenliggende stappen te begeleiden en fouten te identificeren. Het bouwen van effectieve PRMs blijft echter een uitdaging vanwege het gebrek aan schaalbare, hoogwaardige annotaties. Bestaande benaderingen vertrouwen op kostbare menselijke labeling, LLM-gebaseerde zelfevaluatie die gevoelig is voor hallucinatie, of Monte Carlo (MC) schatting, die de kwaliteit van stappen alleen afleidt uit rollout-resultaten en vaak ruisvolle, verkeerd uitgelijnde begeleiding introduceert door foutieve toeschrijving van credits. Deze problemen resulteren in drie kernbeperkingen: ruisvolle beloningen, lage feitelijke betrouwbaarheid en verkeerde uitlijning met stapniveau-redeneerdoelen. Om deze uitdagingen aan te pakken, introduceren we GroundedPRM, een boomgeleid en betrouwbaarheidsbewust raamwerk voor automatische procesbegeleiding. Om ruis in beloningen te verminderen en fijnmazige toewijzing van credits mogelijk te maken, construeren we gestructureerde redeneerpaden via Monte Carlo Tree Search (MCTS). Om gehallucineerde begeleiding te elimineren, valideren we elke tussenliggende stap met behulp van een extern hulpmiddel, wat uitvoeringsgebaseerde correctiesignalen oplevert. Om zowel stapniveau-validatie als globale resultaatbeoordeling te combineren, ontwerpen we een hybride beloningsaggregatiemechanisme dat tool-gebaseerde verificatie combineert met MCTS-afgeleide feedback. Ten slotte formatteren we het beloningssignaal in een rationale-versterkte, generatieve structuur om de interpreteerbaarheid en compatibiliteit met instructie-afgestemde LLMs te bevorderen. GroundedPRM wordt getraind op slechts 40K automatisch gelabelde samples, wat slechts 10% is van de data die wordt gebruikt door de best presterende PRM getraind met automatisch gelabelde begeleiding. Desondanks behaalt het tot 26% relatieve verbetering in gemiddelde prestaties op ProcessBench. Wanneer het wordt gebruikt voor beloningsgeleide greedy search, presteert GroundedPRM zelfs beter dan PRMs getraind met menselijk gelabelde begeleiding, en biedt het een schaalbare en verifieerbare route naar hoogwaardig procesniveau-redeneren.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large
Language Models (LLMs) by supervising intermediate steps and identifying
errors. However, building effective PRMs remains challenging due to the lack of
scalable, high-quality annotations. Existing approaches rely on costly human
labeling, LLM-based self-evaluation that is prone to hallucination, or Monte
Carlo (MC) estimation, which infers step quality solely from rollout outcomes
and often introduces noisy, misaligned supervision due to credit
misattribution. These issues result in three core limitations: noisy rewards,
low factual fidelity, and misalignment with step-level reasoning objectives. To
address these challenges, we introduce GroundedPRM, a tree-guided and
fidelity-aware framework for automatic process supervision. To reduce reward
noise and enable fine-grained credit assignment, we construct structured
reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated
supervision, we validate each intermediate step using an external tool,
providing execution-grounded correctness signals. To combine both step-level
validation and global outcome assessment, we design a hybrid reward aggregation
mechanism that fuses tool-based verification with MCTS-derived feedback.
Finally, we format the reward signal into a rationale-enhanced, generative
structure to promote interpretability and compatibility with instruction-tuned
LLMs. GroundedPRM is trained on only 40K automatically labeled samples,
amounting to just 10% of the data used by the best-performing PRM trained with
auto-labeled supervision. Nevertheless, it achieves up to a 26% relative
improvement in average performance on ProcessBench. When used for reward-guided
greedy search, GroundedPRM outperforms even PRMs trained with human-labeled
supervision, offering a scalable and verifiable path toward high-quality
process-level reasoning.