GroundedPRM: Modelagem de Recompensa de Processo Guiada por Árvore e Consciente da Fidelidade para Raciocínio em Nível de Etapa
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
October 16, 2025
Autores: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI
Resumo
Os Modelos de Recompensa de Processo (PRMs) visam melhorar o raciocínio em múltiplos passos em Modelos de Linguagem de Grande Escala (LLMs) ao supervisionar etapas intermediárias e identificar erros. No entanto, a construção de PRMs eficazes continua desafiadora devido à falta de anotações escaláveis e de alta qualidade. As abordagens existentes dependem de rotulagem humana custosa, autoavaliação baseada em LLMs que é propensa a alucinações, ou estimativa de Monte Carlo (MC), que infere a qualidade das etapas apenas com base nos resultados finais e frequentemente introduz supervisão ruidosa e desalinhada devido à má atribuição de crédito. Esses problemas resultam em três limitações principais: recompensas ruidosas, baixa fidelidade factual e desalinhamento com os objetivos de raciocínio em nível de etapa. Para enfrentar esses desafios, introduzimos o GroundedPRM, uma estrutura guiada por árvore e consciente da fidelidade para supervisão automática de processos. Para reduzir o ruído nas recompensas e permitir atribuição de crédito refinada, construímos caminhos de raciocínio estruturados por meio de Busca em Árvore de Monte Carlo (MCTS). Para eliminar a supervisão alucinada, validamos cada etapa intermediária usando uma ferramenta externa, fornecendo sinais de correção baseados em execução. Para combinar tanto a validação em nível de etapa quanto a avaliação global do resultado, projetamos um mecanismo híbrido de agregação de recompensas que funde a verificação baseada em ferramentas com o feedback derivado do MCTS. Por fim, formatamos o sinal de recompensa em uma estrutura generativa aprimorada por racionalizações para promover interpretabilidade e compatibilidade com LLMs ajustados por instrução. O GroundedPRM é treinado com apenas 40 mil amostras rotuladas automaticamente, representando apenas 10% dos dados usados pelo PRM de melhor desempenho treinado com supervisão auto-rotulada. Ainda assim, ele alcança uma melhoria relativa de até 26% no desempenho médio no ProcessBench. Quando usado para busca gulosa guiada por recompensas, o GroundedPRM supera até mesmo PRMs treinados com supervisão rotulada por humanos, oferecendo um caminho escalável e verificável para raciocínio de alta qualidade em nível de processo.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large
Language Models (LLMs) by supervising intermediate steps and identifying
errors. However, building effective PRMs remains challenging due to the lack of
scalable, high-quality annotations. Existing approaches rely on costly human
labeling, LLM-based self-evaluation that is prone to hallucination, or Monte
Carlo (MC) estimation, which infers step quality solely from rollout outcomes
and often introduces noisy, misaligned supervision due to credit
misattribution. These issues result in three core limitations: noisy rewards,
low factual fidelity, and misalignment with step-level reasoning objectives. To
address these challenges, we introduce GroundedPRM, a tree-guided and
fidelity-aware framework for automatic process supervision. To reduce reward
noise and enable fine-grained credit assignment, we construct structured
reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated
supervision, we validate each intermediate step using an external tool,
providing execution-grounded correctness signals. To combine both step-level
validation and global outcome assessment, we design a hybrid reward aggregation
mechanism that fuses tool-based verification with MCTS-derived feedback.
Finally, we format the reward signal into a rationale-enhanced, generative
structure to promote interpretability and compatibility with instruction-tuned
LLMs. GroundedPRM is trained on only 40K automatically labeled samples,
amounting to just 10% of the data used by the best-performing PRM trained with
auto-labeled supervision. Nevertheless, it achieves up to a 26% relative
improvement in average performance on ProcessBench. When used for reward-guided
greedy search, GroundedPRM outperforms even PRMs trained with human-labeled
supervision, offering a scalable and verifiable path toward high-quality
process-level reasoning.