ChatPaper.aiChatPaper

GroundedPRM: Modelagem de Recompensa de Processo Guiada por Árvore e Consciente da Fidelidade para Raciocínio em Nível de Etapa

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

October 16, 2025
Autores: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI

Resumo

Os Modelos de Recompensa de Processo (PRMs) visam melhorar o raciocínio em múltiplos passos em Modelos de Linguagem de Grande Escala (LLMs) ao supervisionar etapas intermediárias e identificar erros. No entanto, a construção de PRMs eficazes continua desafiadora devido à falta de anotações escaláveis e de alta qualidade. As abordagens existentes dependem de rotulagem humana custosa, autoavaliação baseada em LLMs que é propensa a alucinações, ou estimativa de Monte Carlo (MC), que infere a qualidade das etapas apenas com base nos resultados finais e frequentemente introduz supervisão ruidosa e desalinhada devido à má atribuição de crédito. Esses problemas resultam em três limitações principais: recompensas ruidosas, baixa fidelidade factual e desalinhamento com os objetivos de raciocínio em nível de etapa. Para enfrentar esses desafios, introduzimos o GroundedPRM, uma estrutura guiada por árvore e consciente da fidelidade para supervisão automática de processos. Para reduzir o ruído nas recompensas e permitir atribuição de crédito refinada, construímos caminhos de raciocínio estruturados por meio de Busca em Árvore de Monte Carlo (MCTS). Para eliminar a supervisão alucinada, validamos cada etapa intermediária usando uma ferramenta externa, fornecendo sinais de correção baseados em execução. Para combinar tanto a validação em nível de etapa quanto a avaliação global do resultado, projetamos um mecanismo híbrido de agregação de recompensas que funde a verificação baseada em ferramentas com o feedback derivado do MCTS. Por fim, formatamos o sinal de recompensa em uma estrutura generativa aprimorada por racionalizações para promover interpretabilidade e compatibilidade com LLMs ajustados por instrução. O GroundedPRM é treinado com apenas 40 mil amostras rotuladas automaticamente, representando apenas 10% dos dados usados pelo PRM de melhor desempenho treinado com supervisão auto-rotulada. Ainda assim, ele alcança uma melhoria relativa de até 26% no desempenho médio no ProcessBench. Quando usado para busca gulosa guiada por recompensas, o GroundedPRM supera até mesmo PRMs treinados com supervisão rotulada por humanos, oferecendo um caminho escalável e verificável para raciocínio de alta qualidade em nível de processo.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large Language Models (LLMs) by supervising intermediate steps and identifying errors. However, building effective PRMs remains challenging due to the lack of scalable, high-quality annotations. Existing approaches rely on costly human labeling, LLM-based self-evaluation that is prone to hallucination, or Monte Carlo (MC) estimation, which infers step quality solely from rollout outcomes and often introduces noisy, misaligned supervision due to credit misattribution. These issues result in three core limitations: noisy rewards, low factual fidelity, and misalignment with step-level reasoning objectives. To address these challenges, we introduce GroundedPRM, a tree-guided and fidelity-aware framework for automatic process supervision. To reduce reward noise and enable fine-grained credit assignment, we construct structured reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated supervision, we validate each intermediate step using an external tool, providing execution-grounded correctness signals. To combine both step-level validation and global outcome assessment, we design a hybrid reward aggregation mechanism that fuses tool-based verification with MCTS-derived feedback. Finally, we format the reward signal into a rationale-enhanced, generative structure to promote interpretability and compatibility with instruction-tuned LLMs. GroundedPRM is trained on only 40K automatically labeled samples, amounting to just 10% of the data used by the best-performing PRM trained with auto-labeled supervision. Nevertheless, it achieves up to a 26% relative improvement in average performance on ProcessBench. When used for reward-guided greedy search, GroundedPRM outperforms even PRMs trained with human-labeled supervision, offering a scalable and verifiable path toward high-quality process-level reasoning.
PDF12October 17, 2025