ChatPaper.aiChatPaper

DuaShepherd: Integrando Correção Passo a Passo e Recompensas Potenciais para Raciocínio Matemático

DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

June 21, 2025
Autores: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI

Resumo

Neste artigo, propomos o DuaShepherd, uma nova estrutura de modelagem de recompensa que integra dois sinais de recompensa complementares, correção e potencial, para aprimorar as capacidades de raciocínio matemático de Modelos de Linguagem de Grande Escala (LLMs). Enquanto os sinais baseados em correção enfatizam a identificação de erros passo a passo, os sinais baseados em potencial focam na probabilidade de alcançar a resposta final correta. Desenvolvemos um pipeline automatizado para a construção de um conjunto de dados em larga escala para modelagem de recompensa com ambos os sinais. Uma arquitetura unificada de múltiplas cabeças foi explorada para treinar os dois modelos de recompensa em uma configuração de multitarefa, demonstrando benefícios ao aprender correção e potencial em paralelo. Ao combinar esses dois sinais em uma probabilidade composta, nosso modelo alcança melhorias consistentes de desempenho em vários benchmarks. Avaliações empíricas no MATH500 e no ProcessBench confirmam que essa recompensa combinada supera significativamente os modelos treinados com apenas um tipo de recompensa, alcançando desempenho de ponta sob restrições de recursos comparáveis.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that integrates two complementary reward signals, correctness and potential, to enhance the mathematical reasoning capabilities of Large Language Models (LLMs). While correctness-based signals emphasize identification of stepwise errors, potential-based signals focus on the likelihood of reaching the correct final answer. We developed an automated pipeline for constructing large-scale reward modeling dataset with both signals. A unified, multi-head architecture was explored to train the two reward models in a multi-task setup, demonstrating benefits from learning both correctness and potential in parallel. By combining these two signals into a compound probability, our model achieves consistent performance improvements across multiple benchmarks. Empirical evaluations on MATH500 and ProcessBench confirm that this combined reward significantly outperforms models trained on either reward type alone, achieving state-of-the-art performance under comparable resource constraints.
PDF31June 27, 2025