GroundedPRM: Baumgesteuertes und Treue-bewusstes Prozess-Belohnungsmodellierung für schrittweises logisches Denken
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
October 16, 2025
papers.authors: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI
papers.abstract
Prozess-Belohnungsmodelle (PRMs) zielen darauf ab, das mehrstufige Denken in großen Sprachmodellen (LLMs) zu verbessern, indem sie Zwischenschritte überwachen und Fehler identifizieren. Der Aufbau effektiver PRMs bleibt jedoch aufgrund des Mangels an skalierbaren, hochwertigen Annotationen eine Herausforderung. Bestehende Ansätze stützen sich auf kostspielige menschliche Beschriftung, LLM-basierte Selbstevaluation, die zu Halluzinationen neigt, oder Monte-Carlo (MC)-Schätzung, die die Qualität von Schritten ausschließlich aus den Ergebnissen von Rollouts ableitet und oft verrauschte, fehlausgerichtete Überwachung aufgrund von Fehlzuschreibungen von Verdiensten einführt. Diese Probleme führen zu drei zentralen Einschränkungen: verrauschte Belohnungen, geringe faktische Treue und Fehlausrichtung mit den Zielen der schrittweisen Argumentation. Um diese Herausforderungen zu bewältigen, stellen wir GroundedPRM vor, ein baumgeführtes und treuebewusstes Framework für automatische Prozessüberwachung. Um das Belohnungsrauschen zu reduzieren und eine fein abgestufte Zuweisung von Verdiensten zu ermöglichen, konstruieren wir strukturierte Argumentationspfade mittels Monte-Carlo-Baumsuche (MCTS). Um halluzinierte Überwachung zu eliminieren, validieren wir jeden Zwischenschritt mithilfe eines externen Tools, das ausführungsbasierte Korrektheitssignale liefert. Um sowohl schrittweise Validierung als auch globale Ergebnisbewertung zu kombinieren, entwerfen wir einen hybriden Belohnungsaggregationsmechanismus, der toolbasierte Verifizierung mit MCTS-abgeleitetem Feedback verschmilzt. Schließlich formatieren wir das Belohnungssignal in eine rationale-erweiterte, generative Struktur, um die Interpretierbarkeit und Kompatibilität mit instruktionsgesteuerten LLMs zu fördern. GroundedPRM wird mit nur 40K automatisch beschrifteten Stichproben trainiert, was lediglich 10 % der Daten entspricht, die vom leistungsstärksten PRM mit automatisch beschrifteter Überwachung verwendet werden. Dennoch erreicht es eine relative Verbesserung der durchschnittlichen Leistung auf ProcessBench von bis zu 26 %. Wenn es für belohnungsgesteuerte Greedy-Suche verwendet wird, übertrifft GroundedPRM sogar PRMs, die mit menschlich beschrifteter Überwachung trainiert wurden, und bietet einen skalierbaren und verifizierbaren Weg hin zu hochwertiger prozessbasierter Argumentation.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large
Language Models (LLMs) by supervising intermediate steps and identifying
errors. However, building effective PRMs remains challenging due to the lack of
scalable, high-quality annotations. Existing approaches rely on costly human
labeling, LLM-based self-evaluation that is prone to hallucination, or Monte
Carlo (MC) estimation, which infers step quality solely from rollout outcomes
and often introduces noisy, misaligned supervision due to credit
misattribution. These issues result in three core limitations: noisy rewards,
low factual fidelity, and misalignment with step-level reasoning objectives. To
address these challenges, we introduce GroundedPRM, a tree-guided and
fidelity-aware framework for automatic process supervision. To reduce reward
noise and enable fine-grained credit assignment, we construct structured
reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated
supervision, we validate each intermediate step using an external tool,
providing execution-grounded correctness signals. To combine both step-level
validation and global outcome assessment, we design a hybrid reward aggregation
mechanism that fuses tool-based verification with MCTS-derived feedback.
Finally, we format the reward signal into a rationale-enhanced, generative
structure to promote interpretability and compatibility with instruction-tuned
LLMs. GroundedPRM is trained on only 40K automatically labeled samples,
amounting to just 10% of the data used by the best-performing PRM trained with
auto-labeled supervision. Nevertheless, it achieves up to a 26% relative
improvement in average performance on ProcessBench. When used for reward-guided
greedy search, GroundedPRM outperforms even PRMs trained with human-labeled
supervision, offering a scalable and verifiable path toward high-quality
process-level reasoning.