ChatPaper.aiChatPaper

DuaShepherd : Intégration de la correction pas à pas et des récompenses potentielles pour le raisonnement mathématique

DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

June 21, 2025
Auteurs: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI

Résumé

Dans cet article, nous proposons DuaShepherd, un nouveau cadre de modélisation de récompense qui intègre deux signaux de récompense complémentaires, la justesse et le potentiel, afin d'améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLM). Alors que les signaux basés sur la justesse mettent l'accent sur l'identification des erreurs étape par étape, les signaux basés sur le potentiel se concentrent sur la probabilité d'atteindre la réponse finale correcte. Nous avons développé un pipeline automatisé pour construire un ensemble de données à grande échelle pour la modélisation de récompense avec ces deux signaux. Une architecture unifiée à têtes multiples a été explorée pour entraîner les deux modèles de récompense dans un cadre multitâche, démontrant les avantages de l'apprentissage simultané de la justesse et du potentiel. En combinant ces deux signaux en une probabilité composée, notre modèle obtient des améliorations de performance constantes sur plusieurs benchmarks. Les évaluations empiriques sur MATH500 et ProcessBench confirment que cette récompense combinée surpasse significativement les modèles entraînés sur un seul type de récompense, atteignant des performances de pointe sous des contraintes de ressources comparables.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that integrates two complementary reward signals, correctness and potential, to enhance the mathematical reasoning capabilities of Large Language Models (LLMs). While correctness-based signals emphasize identification of stepwise errors, potential-based signals focus on the likelihood of reaching the correct final answer. We developed an automated pipeline for constructing large-scale reward modeling dataset with both signals. A unified, multi-head architecture was explored to train the two reward models in a multi-task setup, demonstrating benefits from learning both correctness and potential in parallel. By combining these two signals into a compound probability, our model achieves consistent performance improvements across multiple benchmarks. Empirical evaluations on MATH500 and ProcessBench confirm that this combined reward significantly outperforms models trained on either reward type alone, achieving state-of-the-art performance under comparable resource constraints.
PDF21June 27, 2025