ChatPaper.aiChatPaper

DuaShepherd: Integrazione della Correttezza Graduale e dei Potenziali Premi per il Ragionamento Matematico

DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

June 21, 2025
Autori: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI

Abstract

In questo articolo, proponiamo DuaShepherd, un nuovo framework di modellazione delle ricompense che integra due segnali di ricompensa complementari, correttezza e potenziale, per migliorare le capacità di ragionamento matematico dei Large Language Models (LLM). Mentre i segnali basati sulla correttezza enfatizzano l'identificazione degli errori passo-passo, i segnali basati sul potenziale si concentrano sulla probabilità di raggiungere la risposta finale corretta. Abbiamo sviluppato una pipeline automatizzata per la costruzione di un dataset su larga scala per la modellazione delle ricompense con entrambi i segnali. È stata esplorata un'architettura unificata a più teste per addestrare i due modelli di ricompensa in un contesto multi-task, dimostrando i vantaggi derivanti dall'apprendimento parallelo di correttezza e potenziale. Combinando questi due segnali in una probabilità composta, il nostro modello ottiene miglioramenti consistenti delle prestazioni su più benchmark. Le valutazioni empiriche su MATH500 e ProcessBench confermano che questa ricompensa combinata supera significativamente i modelli addestrati su un solo tipo di ricompensa, raggiungendo prestazioni all'avanguardia con vincoli di risorse comparabili.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that integrates two complementary reward signals, correctness and potential, to enhance the mathematical reasoning capabilities of Large Language Models (LLMs). While correctness-based signals emphasize identification of stepwise errors, potential-based signals focus on the likelihood of reaching the correct final answer. We developed an automated pipeline for constructing large-scale reward modeling dataset with both signals. A unified, multi-head architecture was explored to train the two reward models in a multi-task setup, demonstrating benefits from learning both correctness and potential in parallel. By combining these two signals into a compound probability, our model achieves consistent performance improvements across multiple benchmarks. Empirical evaluations on MATH500 and ProcessBench confirm that this combined reward significantly outperforms models trained on either reward type alone, achieving state-of-the-art performance under comparable resource constraints.
PDF31June 27, 2025