Tipagem de Erros para Recompensas Mais Inteligentes: Melhorando Modelos de Recompensa de Processo com Supervisão Hierárquica Consciente de Erros
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision
May 26, 2025
Autores: Tej Deep Pala, Panshul Sharma, Amir Zadeh, Chuan Li, Soujanya Poria
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) são propensos a alucinações, especialmente durante tarefas de múltiplos passos e intensivas em raciocínio, como a resolução de problemas matemáticos. Enquanto os Modelos de Recompensa por Resultado verificam apenas as respostas finais, os Modelos de Recompensa por Processo (PRMs) pontuam cada etapa intermediária para direcionar a geração em direção a soluções coerentes. Apresentamos o PathFinder-PRM, um novo PRM discriminativo hierárquico e consciente de erros que primeiro classifica erros matemáticos e de consistência em cada etapa, depois combina esses sinais refinados para estimar a correção da etapa. Para treinar o PathFinder-PRM, construímos um conjunto de dados de 400 mil amostras enriquecendo o corpus PRM800K anotado por humanos e os traços RLHFlow Mistral com rótulos tridimensionais no nível da etapa. No PRMBench, o PathFinder-PRM alcança um novo estado da arte com um PRMScore de 67,7, superando o melhor anterior (65,5) enquanto utiliza três vezes menos dados. Quando aplicado à busca gulosa guiada por recompensa, nosso modelo produz um prm@8 de 48,3, um ganho de +1,5 ponto em relação à linha de base mais forte. Esses resultados demonstram que a detecção de erros desacoplada e a estimativa de recompensa não apenas impulsionam a detecção refinada de erros, mas também melhoram substancialmente o raciocínio matemático guiado por recompensa de ponta a ponta com maior eficiência de dados.
English
Large Language Models (LLMs) are prone to hallucination, especially during
multi-hop and reasoning-intensive tasks such as mathematical problem solving.
While Outcome Reward Models verify only final answers, Process Reward Models
(PRMs) score each intermediate step to steer generation toward coherent
solutions. We introduce PathFinder-PRM, a novel hierarchical, error-aware
discriminative PRM that first classifies math and consistency errors at each
step, then combines these fine-grained signals to estimate step correctness. To
train PathFinder-PRM, we construct a 400K-sample dataset by enriching the
human-annotated PRM800K corpus and RLHFlow Mistral traces with
three-dimensional step-level labels. On PRMBench, PathFinder-PRM achieves a new
state-of-the-art PRMScore of 67.7, outperforming the prior best (65.5) while
using 3 times less data. When applied to reward guided greedy search, our model
yields prm@8 48.3, a +1.5 point gain over the strongest baseline. These results
demonstrate that decoupled error detection and reward estimation not only boost
fine-grained error detection but also substantially improve end-to-end,
reward-guided mathematical reasoning with greater data efficiency.