ChatPaper.aiChatPaper

GroundedPRM: Modelado de Recompensas de Procesos Guiado por Árboles y Consciente de la Fidelidad para el Razonamiento a Nivel de Pasos

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

October 16, 2025
Autores: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI

Resumen

Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) buscan mejorar el razonamiento de múltiples pasos en los Modelos de Lenguaje a Gran Escala (LLMs) mediante la supervisión de pasos intermedios y la identificación de errores. Sin embargo, construir PRMs efectivos sigue siendo un desafío debido a la falta de anotaciones escalables y de alta calidad. Los enfoques existentes dependen de costosas etiquetas humanas, autoevaluaciones basadas en LLMs que son propensas a alucinaciones, o estimaciones de Monte Carlo (MC), que infieren la calidad de los pasos únicamente a partir de los resultados finales y a menudo introducen supervisión ruidosa y desalineada debido a la mala atribución de créditos. Estos problemas resultan en tres limitaciones principales: recompensas ruidosas, baja fidelidad factual y desalineación con los objetivos de razonamiento a nivel de pasos. Para abordar estos desafíos, presentamos GroundedPRM, un marco de supervisión automática de procesos guiado por árboles y consciente de la fidelidad. Para reducir el ruido en las recompensas y permitir una asignación de crédito detallada, construimos rutas de razonamiento estructuradas mediante Búsqueda de Árbol de Monte Carlo (MCTS). Para eliminar la supervisión alucinada, validamos cada paso intermedio utilizando una herramienta externa, proporcionando señales de corrección basadas en la ejecución. Para combinar tanto la validación a nivel de pasos como la evaluación global de resultados, diseñamos un mecanismo híbrido de agregación de recompensas que fusiona la verificación basada en herramientas con la retroalimentación derivada de MCTS. Finalmente, formateamos la señal de recompensa en una estructura generativa mejorada con racionalizaciones para promover la interpretabilidad y la compatibilidad con LLMs ajustados por instrucciones. GroundedPRM se entrena con solo 40K muestras etiquetadas automáticamente, lo que representa apenas el 10% de los datos utilizados por el PRM de mejor rendimiento entrenado con supervisión autoetiquetada. No obstante, logra una mejora relativa de hasta el 26% en el rendimiento promedio en ProcessBench. Cuando se utiliza para búsquedas codiciosas guiadas por recompensas, GroundedPRM supera incluso a los PRMs entrenados con supervisión etiquetada por humanos, ofreciendo un camino escalable y verificable hacia un razonamiento de alta calidad a nivel de procesos.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large Language Models (LLMs) by supervising intermediate steps and identifying errors. However, building effective PRMs remains challenging due to the lack of scalable, high-quality annotations. Existing approaches rely on costly human labeling, LLM-based self-evaluation that is prone to hallucination, or Monte Carlo (MC) estimation, which infers step quality solely from rollout outcomes and often introduces noisy, misaligned supervision due to credit misattribution. These issues result in three core limitations: noisy rewards, low factual fidelity, and misalignment with step-level reasoning objectives. To address these challenges, we introduce GroundedPRM, a tree-guided and fidelity-aware framework for automatic process supervision. To reduce reward noise and enable fine-grained credit assignment, we construct structured reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated supervision, we validate each intermediate step using an external tool, providing execution-grounded correctness signals. To combine both step-level validation and global outcome assessment, we design a hybrid reward aggregation mechanism that fuses tool-based verification with MCTS-derived feedback. Finally, we format the reward signal into a rationale-enhanced, generative structure to promote interpretability and compatibility with instruction-tuned LLMs. GroundedPRM is trained on only 40K automatically labeled samples, amounting to just 10% of the data used by the best-performing PRM trained with auto-labeled supervision. Nevertheless, it achieves up to a 26% relative improvement in average performance on ProcessBench. When used for reward-guided greedy search, GroundedPRM outperforms even PRMs trained with human-labeled supervision, offering a scalable and verifiable path toward high-quality process-level reasoning.
PDF12October 17, 2025