ChatPaper.aiChatPaper

DuaShepherd: Integration von schrittweiser Korrektheit und potenziellen Belohnungen für mathematisches Denken

DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

June 21, 2025
Autoren: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI

Zusammenfassung

In diesem Artikel stellen wir DuaShepherd vor, ein neuartiges Framework für die Modellierung von Belohnungssignalen, das zwei komplementäre Belohnungssignale, Korrektheit und Potenzial, integriert, um die mathematischen Fähigkeiten von Large Language Models (LLMs) zu verbessern. Während korrektheitsbasierte Signale die Identifikation von schrittweisen Fehlern betonen, konzentrieren sich potenzialbasierte Signale auf die Wahrscheinlichkeit, die korrekte Endantwort zu erreichen. Wir entwickelten eine automatisierte Pipeline zur Erstellung eines groß angelegten Datensatzes für die Belohnungsmodellierung mit beiden Signalen. Eine einheitliche, Multi-Head-Architektur wurde untersucht, um die beiden Belohnungsmodelle in einem Multi-Task-Setup zu trainieren, wodurch die Vorteile des parallelen Lernens von Korrektheit und Potenzial demonstriert wurden. Durch die Kombination dieser beiden Signale in eine zusammengesetzte Wahrscheinlichkeit erzielt unser Modell konsistente Leistungsverbesserungen über mehrere Benchmarks hinweg. Empirische Auswertungen auf MATH500 und ProcessBench bestätigen, dass diese kombinierte Belohnung Modelle, die nur auf einem der beiden Belohnungstypen trainiert wurden, deutlich übertrifft und unter vergleichbaren Ressourcenbedingungen state-of-the-art Leistungen erzielt.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that integrates two complementary reward signals, correctness and potential, to enhance the mathematical reasoning capabilities of Large Language Models (LLMs). While correctness-based signals emphasize identification of stepwise errors, potential-based signals focus on the likelihood of reaching the correct final answer. We developed an automated pipeline for constructing large-scale reward modeling dataset with both signals. A unified, multi-head architecture was explored to train the two reward models in a multi-task setup, demonstrating benefits from learning both correctness and potential in parallel. By combining these two signals into a compound probability, our model achieves consistent performance improvements across multiple benchmarks. Empirical evaluations on MATH500 and ProcessBench confirm that this combined reward significantly outperforms models trained on either reward type alone, achieving state-of-the-art performance under comparable resource constraints.
PDF21June 27, 2025