Além da Correção: Harmonizando Recompensas de Processo e Resultado através do Treinamento com RL
Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training
September 3, 2025
Autores: Chenlu Ye, Zhou Yu, Ziji Zhang, Hao Chen, Narayanan Sadagopan, Jing Huang, Tong Zhang, Anurag Beniwal
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma predominante para tarefas de raciocínio matemático, oferecendo melhorias estáveis na capacidade de raciocínio. No entanto, os Modelos de Recompensa por Resultado (ORMs) no RLVR são muito grosseiros para distinguir raciocínios falhos dentro de respostas corretas ou raciocínios válidos dentro de respostas incorretas. Essa falta de granularidade introduz gradientes ruidosos e enganosos de forma significativa e impede avanços na qualidade do processo de raciocínio. Embora os Modelos de Recompensa por Processo (PRMs) ofereçam orientação refinada para etapas intermediárias, eles frequentemente sofrem com imprecisões e são suscetíveis a manipulação de recompensas.
Para resolver esse dilema, introduzimos o Filtro de Consistência de Processo (PROF), um método eficaz de curadoria de dados que harmoniza recompensas de processo refinadas e ruidosas com recompensas de resultado grosseiras e precisas. Em vez de simplesmente combinar PRM e ORM na função objetivo (arXiv:archive/2506.18896), o PROF aproveita seus pontos fortes complementares por meio da seleção de amostras orientada por consistência. Nossa abordagem mantém respostas corretas com valores de processo médios mais altos e respostas incorretas com valores de processo médios mais baixos, preservando o equilíbrio entre amostras de treinamento positivas e negativas. Experimentos extensivos demonstram que nosso método não apenas melhora consistentemente a precisão final em mais de 4% em comparação com as abordagens de combinação, mas também fortalece a qualidade das etapas intermediárias de raciocínio. Códigos e receitas de treinamento estão disponíveis em https://github.com/Chenluye99/PROF.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged to be a
predominant paradigm for mathematical reasoning tasks, offering stable
improvements in reasoning ability. However, Outcome Reward Models (ORMs) in
RLVR are too coarse-grained to distinguish flawed reasoning within correct
answers or valid reasoning within incorrect answers. This lack of granularity
introduces noisy and misleading gradients significantly and hinders further
progress in reasoning process quality. While Process Reward Models (PRMs) offer
fine-grained guidance for intermediate steps, they frequently suffer from
inaccuracies and are susceptible to reward hacking.
To resolve this dilemma, we introduce PRocess cOnsistency Filter (PROF), an
effective data process curation method that harmonizes noisy, fine-grained
process rewards with accurate, coarse-grained outcome rewards. Rather than
naively blending PRM and ORM in the objective function
(arXiv:archive/2506.18896), PROF leverages their complementary strengths
through consistency-driven sample selection. Our approach retains correct
responses with higher averaged process values and incorrect responses with
lower averaged process values, while maintaining positive/negative training
sample balance. Extensive experiments demonstrate that our method not only
consistently improves the final accuracy over 4% compared to the blending
approaches, but also strengthens the quality of intermediate reasoning steps.
Codes and training recipes are available at https://github.com/Chenluye99/PROF.