ChatPaper.aiChatPaper

GroundedPRM : Modélisation des récompenses de processus guidée par arbre et sensible à la fidélité pour le raisonnement étape par étape

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

October 16, 2025
papers.authors: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI

papers.abstract

Les modèles de récompense de processus (PRM) visent à améliorer le raisonnement multi-étapes dans les grands modèles de langage (LLM) en supervisant les étapes intermédiaires et en identifiant les erreurs. Cependant, la construction de PRM efficaces reste un défi en raison du manque d'annotations évolutives et de haute qualité. Les approches existantes reposent sur un étiquetage humain coûteux, une auto-évaluation basée sur les LLM sujette à l'hallucination, ou une estimation par Monte Carlo (MC), qui déduit la qualité des étapes uniquement à partir des résultats finaux et introduit souvent une supervision bruyante et mal alignée en raison d'une mauvaise attribution des crédits. Ces problèmes entraînent trois limitations principales : des récompenses bruyantes, une faible fidélité factuelle et un désalignement avec les objectifs de raisonnement au niveau des étapes. Pour relever ces défis, nous introduisons GroundedPRM, un cadre de supervision automatique des processus guidé par arbre et conscient de la fidélité. Pour réduire le bruit des récompenses et permettre une attribution fine des crédits, nous construisons des chemins de raisonnement structurés via la recherche arborescente Monte Carlo (MCTS). Pour éliminer la supervision hallucinée, nous validons chaque étape intermédiaire à l'aide d'un outil externe, fournissant des signaux de correction ancrés dans l'exécution. Pour combiner à la fois la validation au niveau des étapes et l'évaluation globale des résultats, nous concevons un mécanisme d'agrégation hybride des récompenses qui fusionne la vérification basée sur des outils avec les retours dérivés de la MCTS. Enfin, nous formatons le signal de récompense en une structure générative enrichie de justifications pour promouvoir l'interprétabilité et la compatibilité avec les LLM ajustés par instruction. GroundedPRM est entraîné sur seulement 40 000 échantillons étiquetés automatiquement, représentant seulement 10 % des données utilisées par le meilleur PRM entraîné avec une supervision auto-étiquetée. Néanmoins, il permet une amélioration relative allant jusqu'à 26 % en performance moyenne sur ProcessBench. Lorsqu'il est utilisé pour une recherche gloutonne guidée par les récompenses, GroundedPRM surpasse même les PRM entraînés avec une supervision étiquetée par des humains, offrant une voie évolutive et vérifiable vers un raisonnement de haute qualité au niveau des processus.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large Language Models (LLMs) by supervising intermediate steps and identifying errors. However, building effective PRMs remains challenging due to the lack of scalable, high-quality annotations. Existing approaches rely on costly human labeling, LLM-based self-evaluation that is prone to hallucination, or Monte Carlo (MC) estimation, which infers step quality solely from rollout outcomes and often introduces noisy, misaligned supervision due to credit misattribution. These issues result in three core limitations: noisy rewards, low factual fidelity, and misalignment with step-level reasoning objectives. To address these challenges, we introduce GroundedPRM, a tree-guided and fidelity-aware framework for automatic process supervision. To reduce reward noise and enable fine-grained credit assignment, we construct structured reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated supervision, we validate each intermediate step using an external tool, providing execution-grounded correctness signals. To combine both step-level validation and global outcome assessment, we design a hybrid reward aggregation mechanism that fuses tool-based verification with MCTS-derived feedback. Finally, we format the reward signal into a rationale-enhanced, generative structure to promote interpretability and compatibility with instruction-tuned LLMs. GroundedPRM is trained on only 40K automatically labeled samples, amounting to just 10% of the data used by the best-performing PRM trained with auto-labeled supervision. Nevertheless, it achieves up to a 26% relative improvement in average performance on ProcessBench. When used for reward-guided greedy search, GroundedPRM outperforms even PRMs trained with human-labeled supervision, offering a scalable and verifiable path toward high-quality process-level reasoning.
PDF12October 17, 2025