DuaShepherd: Integración de la Corrección Paso a Paso y las Recompensas Potenciales para el Razonamiento Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning
June 21, 2025
Autores: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
cs.AI
Resumen
En este artículo, proponemos DuaShepherd, un marco novedoso de modelado de recompensas que integra dos señales de recompensa complementarias, corrección y potencial, para mejorar las capacidades de razonamiento matemático de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Mientras que las señales basadas en corrección enfatizan la identificación de errores paso a paso, las señales basadas en potencial se centran en la probabilidad de alcanzar la respuesta final correcta. Desarrollamos una canalización automatizada para construir un conjunto de datos a gran escala para el modelado de recompensas que incluye ambas señales. Se exploró una arquitectura unificada de múltiples cabezales para entrenar los dos modelos de recompensas en una configuración de múltiples tareas, demostrando beneficios al aprender tanto la corrección como el potencial en paralelo. Al combinar estas dos señales en una probabilidad compuesta, nuestro modelo logra mejoras consistentes en el rendimiento en múltiples puntos de referencia. Las evaluaciones empíricas en MATH500 y ProcessBench confirman que esta recompensa combinada supera significativamente a los modelos entrenados con un solo tipo de recompensa, alcanzando un rendimiento de vanguardia bajo restricciones de recursos comparables.
English
In this paper, we propose DuaShepherd, a novel reward modeling framework that
integrates two complementary reward signals, correctness and potential, to
enhance the mathematical reasoning capabilities of Large Language Models
(LLMs). While correctness-based signals emphasize identification of stepwise
errors, potential-based signals focus on the likelihood of reaching the correct
final answer. We developed an automated pipeline for constructing large-scale
reward modeling dataset with both signals. A unified, multi-head architecture
was explored to train the two reward models in a multi-task setup,
demonstrating benefits from learning both correctness and potential in
parallel. By combining these two signals into a compound probability, our model
achieves consistent performance improvements across multiple benchmarks.
Empirical evaluations on MATH500 and ProcessBench confirm that this combined
reward significantly outperforms models trained on either reward type alone,
achieving state-of-the-art performance under comparable resource constraints.