DuaShepherd: Integration von schrittweiser Korrektheit und potenziellen Belohnungen für mathematisches Denken
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning
June 21, 2025
Autoren: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI
Zusammenfassung
In diesem Artikel stellen wir DuaShepherd vor, ein neuartiges Framework für die Modellierung von Belohnungssignalen, das zwei komplementäre Belohnungssignale, Korrektheit und Potenzial, integriert, um die mathematischen Fähigkeiten von Large Language Models (LLMs) zu verbessern. Während korrektheitsbasierte Signale die Identifikation von schrittweisen Fehlern betonen, konzentrieren sich potenzialbasierte Signale auf die Wahrscheinlichkeit, die korrekte Endantwort zu erreichen. Wir entwickelten eine automatisierte Pipeline zur Erstellung eines groß angelegten Datensatzes für die Belohnungsmodellierung mit beiden Signalen. Eine einheitliche, Multi-Head-Architektur wurde untersucht, um die beiden Belohnungsmodelle in einem Multi-Task-Setup zu trainieren, wodurch die Vorteile des parallelen Lernens von Korrektheit und Potenzial demonstriert wurden. Durch die Kombination dieser beiden Signale in eine zusammengesetzte Wahrscheinlichkeit erzielt unser Modell konsistente Leistungsverbesserungen über mehrere Benchmarks hinweg. Empirische Auswertungen auf MATH500 und ProcessBench bestätigen, dass diese kombinierte Belohnung Modelle, die nur auf einem der beiden Belohnungstypen trainiert wurden, deutlich übertrifft und unter vergleichbaren Ressourcenbedingungen state-of-the-art Leistungen erzielt.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that
integrates two complementary reward signals, correctness and potential, to
enhance the mathematical reasoning capabilities of Large Language Models
(LLMs). While correctness-based signals emphasize identification of stepwise
errors, potential-based signals focus on the likelihood of reaching the correct
final answer. We developed an automated pipeline for constructing large-scale
reward modeling dataset with both signals. A unified, multi-head architecture
was explored to train the two reward models in a multi-task setup,
demonstrating benefits from learning both correctness and potential in
parallel. By combining these two signals into a compound probability, our model
achieves consistent performance improvements across multiple benchmarks.
Empirical evaluations on MATH500 and ProcessBench confirm that this combined
reward significantly outperforms models trained on either reward type alone,
achieving state-of-the-art performance under comparable resource constraints.