DuaShepherd : Intégration de la correction pas à pas et des récompenses potentielles pour le raisonnement mathématique
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning
June 21, 2025
Auteurs: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI
Résumé
Dans cet article, nous proposons DuaShepherd, un nouveau cadre de modélisation de récompense qui intègre deux signaux de récompense complémentaires, la justesse et le potentiel, afin d'améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLM). Alors que les signaux basés sur la justesse mettent l'accent sur l'identification des erreurs étape par étape, les signaux basés sur le potentiel se concentrent sur la probabilité d'atteindre la réponse finale correcte. Nous avons développé un pipeline automatisé pour construire un ensemble de données à grande échelle pour la modélisation de récompense avec ces deux signaux. Une architecture unifiée à têtes multiples a été explorée pour entraîner les deux modèles de récompense dans un cadre multitâche, démontrant les avantages de l'apprentissage simultané de la justesse et du potentiel. En combinant ces deux signaux en une probabilité composée, notre modèle obtient des améliorations de performance constantes sur plusieurs benchmarks. Les évaluations empiriques sur MATH500 et ProcessBench confirment que cette récompense combinée surpasse significativement les modèles entraînés sur un seul type de récompense, atteignant des performances de pointe sous des contraintes de ressources comparables.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that
integrates two complementary reward signals, correctness and potential, to
enhance the mathematical reasoning capabilities of Large Language Models
(LLMs). While correctness-based signals emphasize identification of stepwise
errors, potential-based signals focus on the likelihood of reaching the correct
final answer. We developed an automated pipeline for constructing large-scale
reward modeling dataset with both signals. A unified, multi-head architecture
was explored to train the two reward models in a multi-task setup,
demonstrating benefits from learning both correctness and potential in
parallel. By combining these two signals into a compound probability, our model
achieves consistent performance improvements across multiple benchmarks.
Empirical evaluations on MATH500 and ProcessBench confirm that this combined
reward significantly outperforms models trained on either reward type alone,
achieving state-of-the-art performance under comparable resource constraints.