GroundedPRM : Modélisation des récompenses de processus guidée par arbre et sensible à la fidélité pour le raisonnement étape par étape
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
October 16, 2025
papers.authors: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI
papers.abstract
Les modèles de récompense de processus (PRM) visent à améliorer le raisonnement multi-étapes dans les grands modèles de langage (LLM) en supervisant les étapes intermédiaires et en identifiant les erreurs. Cependant, la construction de PRM efficaces reste un défi en raison du manque d'annotations évolutives et de haute qualité. Les approches existantes reposent sur un étiquetage humain coûteux, une auto-évaluation basée sur les LLM sujette à l'hallucination, ou une estimation par Monte Carlo (MC), qui déduit la qualité des étapes uniquement à partir des résultats finaux et introduit souvent une supervision bruyante et mal alignée en raison d'une mauvaise attribution des crédits. Ces problèmes entraînent trois limitations principales : des récompenses bruyantes, une faible fidélité factuelle et un désalignement avec les objectifs de raisonnement au niveau des étapes. Pour relever ces défis, nous introduisons GroundedPRM, un cadre de supervision automatique des processus guidé par arbre et conscient de la fidélité. Pour réduire le bruit des récompenses et permettre une attribution fine des crédits, nous construisons des chemins de raisonnement structurés via la recherche arborescente Monte Carlo (MCTS). Pour éliminer la supervision hallucinée, nous validons chaque étape intermédiaire à l'aide d'un outil externe, fournissant des signaux de correction ancrés dans l'exécution. Pour combiner à la fois la validation au niveau des étapes et l'évaluation globale des résultats, nous concevons un mécanisme d'agrégation hybride des récompenses qui fusionne la vérification basée sur des outils avec les retours dérivés de la MCTS. Enfin, nous formatons le signal de récompense en une structure générative enrichie de justifications pour promouvoir l'interprétabilité et la compatibilité avec les LLM ajustés par instruction. GroundedPRM est entraîné sur seulement 40 000 échantillons étiquetés automatiquement, représentant seulement 10 % des données utilisées par le meilleur PRM entraîné avec une supervision auto-étiquetée. Néanmoins, il permet une amélioration relative allant jusqu'à 26 % en performance moyenne sur ProcessBench. Lorsqu'il est utilisé pour une recherche gloutonne guidée par les récompenses, GroundedPRM surpasse même les PRM entraînés avec une supervision étiquetée par des humains, offrant une voie évolutive et vérifiable vers un raisonnement de haute qualité au niveau des processus.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large
Language Models (LLMs) by supervising intermediate steps and identifying
errors. However, building effective PRMs remains challenging due to the lack of
scalable, high-quality annotations. Existing approaches rely on costly human
labeling, LLM-based self-evaluation that is prone to hallucination, or Monte
Carlo (MC) estimation, which infers step quality solely from rollout outcomes
and often introduces noisy, misaligned supervision due to credit
misattribution. These issues result in three core limitations: noisy rewards,
low factual fidelity, and misalignment with step-level reasoning objectives. To
address these challenges, we introduce GroundedPRM, a tree-guided and
fidelity-aware framework for automatic process supervision. To reduce reward
noise and enable fine-grained credit assignment, we construct structured
reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated
supervision, we validate each intermediate step using an external tool,
providing execution-grounded correctness signals. To combine both step-level
validation and global outcome assessment, we design a hybrid reward aggregation
mechanism that fuses tool-based verification with MCTS-derived feedback.
Finally, we format the reward signal into a rationale-enhanced, generative
structure to promote interpretability and compatibility with instruction-tuned
LLMs. GroundedPRM is trained on only 40K automatically labeled samples,
amounting to just 10% of the data used by the best-performing PRM trained with
auto-labeled supervision. Nevertheless, it achieves up to a 26% relative
improvement in average performance on ProcessBench. When used for reward-guided
greedy search, GroundedPRM outperforms even PRMs trained with human-labeled
supervision, offering a scalable and verifiable path toward high-quality
process-level reasoning.