GroundedPRM: Baumgesteuertes und Treue-bewusstes Prozess-Belohnungsmodellierung für schrittweises logisches Denken

papers.abstract

Prozess-Belohnungsmodelle (PRMs) zielen darauf ab, das mehrstufige Denken in großen Sprachmodellen (LLMs) zu verbessern, indem sie Zwischenschritte überwachen und Fehler identifizieren. Der Aufbau effektiver PRMs bleibt jedoch aufgrund des Mangels an skalierbaren, hochwertigen Annotationen eine Herausforderung. Bestehende Ansätze stützen sich auf kostspielige menschliche Beschriftung, LLM-basierte Selbstevaluation, die zu Halluzinationen neigt, oder Monte-Carlo (MC)-Schätzung, die die Qualität von Schritten ausschließlich aus den Ergebnissen von Rollouts ableitet und oft verrauschte, fehlausgerichtete Überwachung aufgrund von Fehlzuschreibungen von Verdiensten einführt. Diese Probleme führen zu drei zentralen Einschränkungen: verrauschte Belohnungen, geringe faktische Treue und Fehlausrichtung mit den Zielen der schrittweisen Argumentation. Um diese Herausforderungen zu bewältigen, stellen wir GroundedPRM vor, ein baumgeführtes und treuebewusstes Framework für automatische Prozessüberwachung. Um das Belohnungsrauschen zu reduzieren und eine fein abgestufte Zuweisung von Verdiensten zu ermöglichen, konstruieren wir strukturierte Argumentationspfade mittels Monte-Carlo-Baumsuche (MCTS). Um halluzinierte Überwachung zu eliminieren, validieren wir jeden Zwischenschritt mithilfe eines externen Tools, das ausführungsbasierte Korrektheitssignale liefert. Um sowohl schrittweise Validierung als auch globale Ergebnisbewertung zu kombinieren, entwerfen wir einen hybriden Belohnungsaggregationsmechanismus, der toolbasierte Verifizierung mit MCTS-abgeleitetem Feedback verschmilzt. Schließlich formatieren wir das Belohnungssignal in eine rationale-erweiterte, generative Struktur, um die Interpretierbarkeit und Kompatibilität mit instruktionsgesteuerten LLMs zu fördern. GroundedPRM wird mit nur 40K automatisch beschrifteten Stichproben trainiert, was lediglich 10 % der Daten entspricht, die vom leistungsstärksten PRM mit automatisch beschrifteter Überwachung verwendet werden. Dennoch erreicht es eine relative Verbesserung der durchschnittlichen Leistung auf ProcessBench von bis zu 26 %. Wenn es für belohnungsgesteuerte Greedy-Suche verwendet wird, übertrifft GroundedPRM sogar PRMs, die mit menschlich beschrifteter Überwachung trainiert wurden, und bietet einen skalierbaren und verifizierbaren Weg hin zu hochwertiger prozessbasierter Argumentation.

English

Process Reward Models (PRMs) aim to improve multi-step reasoning in Large Language Models (LLMs) by supervising intermediate steps and identifying errors. However, building effective PRMs remains challenging due to the lack of scalable, high-quality annotations. Existing approaches rely on costly human labeling, LLM-based self-evaluation that is prone to hallucination, or Monte Carlo (MC) estimation, which infers step quality solely from rollout outcomes and often introduces noisy, misaligned supervision due to credit misattribution. These issues result in three core limitations: noisy rewards, low factual fidelity, and misalignment with step-level reasoning objectives. To address these challenges, we introduce GroundedPRM, a tree-guided and fidelity-aware framework for automatic process supervision. To reduce reward noise and enable fine-grained credit assignment, we construct structured reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated supervision, we validate each intermediate step using an external tool, providing execution-grounded correctness signals. To combine both step-level validation and global outcome assessment, we design a hybrid reward aggregation mechanism that fuses tool-based verification with MCTS-derived feedback. Finally, we format the reward signal into a rationale-enhanced, generative structure to promote interpretability and compatibility with instruction-tuned LLMs. GroundedPRM is trained on only 40K automatically labeled samples, amounting to just 10% of the data used by the best-performing PRM trained with auto-labeled supervision. Nevertheless, it achieves up to a 26% relative improvement in average performance on ProcessBench. When used for reward-guided greedy search, GroundedPRM outperforms even PRMs trained with human-labeled supervision, offering a scalable and verifiable path toward high-quality process-level reasoning.

GroundedPRM: Baumgesteuertes und Treue-bewusstes Prozess-Belohnungsmodellierung für schrittweises logisches Denken

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

papers.abstract

Support