DuaShepherd: Интеграция пошаговой корректности и потенциальных наград для математического рассуждения

Аннотация

В данной статье мы представляем DuaShepherd, новую структуру моделирования вознаграждения, которая интегрирует два взаимодополняющих сигнала вознаграждения: корректность и потенциал, чтобы улучшить математические способности рассуждения крупных языковых моделей (LLM). В то время как сигналы, основанные на корректности, подчеркивают выявление пошаговых ошибок, сигналы, основанные на потенциале, сосредоточены на вероятности достижения правильного итогового ответа. Мы разработали автоматизированный конвейер для создания крупномасштабного набора данных для моделирования вознаграждения с обоими сигналами. Была исследована унифицированная многоголовая архитектура для обучения двух моделей вознаграждения в рамках многозадачной настройки, демонстрируя преимущества параллельного изучения корректности и потенциала. Объединяя эти два сигнала в составную вероятность, наша модель достигает устойчивого улучшения производительности на нескольких тестовых наборах. Эмпирические оценки на MATH500 и ProcessBench подтверждают, что это комбинированное вознаграждение значительно превосходит модели, обученные на каждом типе вознаграждения по отдельности, достигая передовых результатов при сопоставимых ограничениях ресурсов.

English

In this paper, we propose DuaShepherd, a novel reward modeling framework that integrates two complementary reward signals, correctness and potential, to enhance the mathematical reasoning capabilities of Large Language Models (LLMs). While correctness-based signals emphasize identification of stepwise errors, potential-based signals focus on the likelihood of reaching the correct final answer. We developed an automated pipeline for constructing large-scale reward modeling dataset with both signals. A unified, multi-head architecture was explored to train the two reward models in a multi-task setup, demonstrating benefits from learning both correctness and potential in parallel. By combining these two signals into a compound probability, our model achieves consistent performance improvements across multiple benchmarks. Empirical evaluations on MATH500 and ProcessBench confirm that this combined reward significantly outperforms models trained on either reward type alone, achieving state-of-the-art performance under comparable resource constraints.

DuaShepherd: Интеграция пошаговой корректности и потенциальных наград для математического рассуждения

DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

Аннотация

Support