DuaShepherd: Интеграция пошаговой корректности и потенциальных наград для математического рассуждения
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning
June 21, 2025
Авторы: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI
Аннотация
В данной статье мы представляем DuaShepherd, новую структуру моделирования вознаграждения, которая интегрирует два взаимодополняющих сигнала вознаграждения: корректность и потенциал, чтобы улучшить математические способности рассуждения крупных языковых моделей (LLM). В то время как сигналы, основанные на корректности, подчеркивают выявление пошаговых ошибок, сигналы, основанные на потенциале, сосредоточены на вероятности достижения правильного итогового ответа. Мы разработали автоматизированный конвейер для создания крупномасштабного набора данных для моделирования вознаграждения с обоими сигналами. Была исследована унифицированная многоголовая архитектура для обучения двух моделей вознаграждения в рамках многозадачной настройки, демонстрируя преимущества параллельного изучения корректности и потенциала. Объединяя эти два сигнала в составную вероятность, наша модель достигает устойчивого улучшения производительности на нескольких тестовых наборах. Эмпирические оценки на MATH500 и ProcessBench подтверждают, что это комбинированное вознаграждение значительно превосходит модели, обученные на каждом типе вознаграждения по отдельности, достигая передовых результатов при сопоставимых ограничениях ресурсов.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that
integrates two complementary reward signals, correctness and potential, to
enhance the mathematical reasoning capabilities of Large Language Models
(LLMs). While correctness-based signals emphasize identification of stepwise
errors, potential-based signals focus on the likelihood of reaching the correct
final answer. We developed an automated pipeline for constructing large-scale
reward modeling dataset with both signals. A unified, multi-head architecture
was explored to train the two reward models in a multi-task setup,
demonstrating benefits from learning both correctness and potential in
parallel. By combining these two signals into a compound probability, our model
achieves consistent performance improvements across multiple benchmarks.
Empirical evaluations on MATH500 and ProcessBench confirm that this combined
reward significantly outperforms models trained on either reward type alone,
achieving state-of-the-art performance under comparable resource constraints.