GroundedPRM: 단계별 추론을 위한 트리 기반 및 충실도 인식 프로세스 보상 모델링
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
October 16, 2025
저자: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI
초록
프로세스 보상 모델(Process Reward Models, PRMs)은 중간 단계를 감독하고 오류를 식별함으로써 대규모 언어 모델(Large Language Models, LLMs)의 다단계 추론을 개선하는 것을 목표로 합니다. 그러나 확장 가능하고 고품질의 주석이 부족하여 효과적인 PRM을 구축하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 접근 방식은 비용이 많이 드는 인간 라벨링, 환각(hallucination)에 취약한 LLM 기반 자기 평가, 또는 롤아웃 결과만으로 단계 품질을 추론하는 몬테카를로(Monte Carlo, MC) 추정에 의존합니다. 이러한 방법들은 신용 오인으로 인해 잡음이 많고 잘못 정렬된 감독을 초래하는 경우가 많습니다. 이러한 문제는 세 가지 핵심 한계를 초래합니다: 잡음이 많은 보상, 낮은 사실적 충실도, 그리고 단계 수준 추론 목표와의 불일치입니다. 이러한 과제를 해결하기 위해, 우리는 자동 프로세스 감독을 위한 트리 기반 및 충실도 인식 프레임워크인 GroundedPRM을 소개합니다. 보상 잡음을 줄이고 세밀한 신용 할당을 가능하게 하기 위해, 우리는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 통해 구조화된 추론 경로를 구축합니다. 환각된 감독을 제거하기 위해, 외부 도구를 사용하여 각 중간 단계를 검증하고 실행 기반의 정확성 신호를 제공합니다. 단계 수준 검증과 전역 결과 평가를 결합하기 위해, 도구 기반 검증과 MCTS에서 도출된 피드백을 융합하는 하이브리드 보상 집계 메커니즘을 설계합니다. 마지막으로, 보상 신호를 해석 가능하고 명령어 튜닝된 LLM과 호환되도록 합리적으로 강화된 생성 구조로 포맷팅합니다. GroundedPRM은 자동으로 라벨링된 40K 샘플만으로 훈련되며, 이는 자동 라벨링 감독으로 훈련된 최고 성능의 PRM이 사용한 데이터의 10%에 불과합니다. 그럼에도 불구하고, GroundedPRM은 ProcessBench에서 평균 성능이 최대 26% 상대적으로 개선되었습니다. 보안 가이드 탐색에 사용될 때, GroundedPRM은 인간 라벨링 감독으로 훈련된 PRM을 능가하며, 고품질 프로세스 수준 추론을 위한 확장 가능하고 검증 가능한 경로를 제공합니다.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large
Language Models (LLMs) by supervising intermediate steps and identifying
errors. However, building effective PRMs remains challenging due to the lack of
scalable, high-quality annotations. Existing approaches rely on costly human
labeling, LLM-based self-evaluation that is prone to hallucination, or Monte
Carlo (MC) estimation, which infers step quality solely from rollout outcomes
and often introduces noisy, misaligned supervision due to credit
misattribution. These issues result in three core limitations: noisy rewards,
low factual fidelity, and misalignment with step-level reasoning objectives. To
address these challenges, we introduce GroundedPRM, a tree-guided and
fidelity-aware framework for automatic process supervision. To reduce reward
noise and enable fine-grained credit assignment, we construct structured
reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated
supervision, we validate each intermediate step using an external tool,
providing execution-grounded correctness signals. To combine both step-level
validation and global outcome assessment, we design a hybrid reward aggregation
mechanism that fuses tool-based verification with MCTS-derived feedback.
Finally, we format the reward signal into a rationale-enhanced, generative
structure to promote interpretability and compatibility with instruction-tuned
LLMs. GroundedPRM is trained on only 40K automatically labeled samples,
amounting to just 10% of the data used by the best-performing PRM trained with
auto-labeled supervision. Nevertheless, it achieves up to a 26% relative
improvement in average performance on ProcessBench. When used for reward-guided
greedy search, GroundedPRM outperforms even PRMs trained with human-labeled
supervision, offering a scalable and verifiable path toward high-quality
process-level reasoning.