Além da Correção: Harmonizando Recompensas de Processo e Resultado através do Treinamento com RL

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma predominante para tarefas de raciocínio matemático, oferecendo melhorias estáveis na capacidade de raciocínio. No entanto, os Modelos de Recompensa por Resultado (ORMs) no RLVR são muito grosseiros para distinguir raciocínios falhos dentro de respostas corretas ou raciocínios válidos dentro de respostas incorretas. Essa falta de granularidade introduz gradientes ruidosos e enganosos de forma significativa e impede avanços na qualidade do processo de raciocínio. Embora os Modelos de Recompensa por Processo (PRMs) ofereçam orientação refinada para etapas intermediárias, eles frequentemente sofrem com imprecisões e são suscetíveis a manipulação de recompensas. Para resolver esse dilema, introduzimos o Filtro de Consistência de Processo (PROF), um método eficaz de curadoria de dados que harmoniza recompensas de processo refinadas e ruidosas com recompensas de resultado grosseiras e precisas. Em vez de simplesmente combinar PRM e ORM na função objetivo (arXiv:archive/2506.18896), o PROF aproveita seus pontos fortes complementares por meio da seleção de amostras orientada por consistência. Nossa abordagem mantém respostas corretas com valores de processo médios mais altos e respostas incorretas com valores de processo médios mais baixos, preservando o equilíbrio entre amostras de treinamento positivas e negativas. Experimentos extensivos demonstram que nosso método não apenas melhora consistentemente a precisão final em mais de 4% em comparação com as abordagens de combinação, mas também fortalece a qualidade das etapas intermediárias de raciocínio. Códigos e receitas de treinamento estão disponíveis em https://github.com/Chenluye99/PROF.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged to be a predominant paradigm for mathematical reasoning tasks, offering stable improvements in reasoning ability. However, Outcome Reward Models (ORMs) in RLVR are too coarse-grained to distinguish flawed reasoning within correct answers or valid reasoning within incorrect answers. This lack of granularity introduces noisy and misleading gradients significantly and hinders further progress in reasoning process quality. While Process Reward Models (PRMs) offer fine-grained guidance for intermediate steps, they frequently suffer from inaccuracies and are susceptible to reward hacking. To resolve this dilemma, we introduce PRocess cOnsistency Filter (PROF), an effective data process curation method that harmonizes noisy, fine-grained process rewards with accurate, coarse-grained outcome rewards. Rather than naively blending PRM and ORM in the objective function (arXiv:archive/2506.18896), PROF leverages their complementary strengths through consistency-driven sample selection. Our approach retains correct responses with higher averaged process values and incorrect responses with lower averaged process values, while maintaining positive/negative training sample balance. Extensive experiments demonstrate that our method not only consistently improves the final accuracy over 4% compared to the blending approaches, but also strengthens the quality of intermediate reasoning steps. Codes and training recipes are available at https://github.com/Chenluye99/PROF.

Além da Correção: Harmonizando Recompensas de Processo e Resultado através do Treinamento com RL

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Resumo

Support