ChatPaper.aiChatPaper

Recompensas de Proceso Libres sin Etiquetas de Proceso

Free Process Rewards without Process Labels

December 2, 2024
Autores: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI

Resumen

A diferencia de los modelos de recompensa de resultado (ORMs) equivalentes, que evalúan las respuestas completas, un modelo de recompensa de proceso (PRM) puntúa una trayectoria de razonamiento paso a paso, proporcionando recompensas más densas y detalladas. Sin embargo, entrenar un PRM requiere etiquetas anotadas en cada paso intermedio, lo que presenta desafíos significativos tanto para la recopilación manual como automática de datos. Este artículo tiene como objetivo abordar este desafío. Tanto teórica como empíricamente, mostramos que se puede obtener un PRM implícito sin costo adicional, simplemente entrenando un ORM en las etiquetas más económicas a nivel de respuesta. La única suposición es parametrizar la recompensa del resultado como los cocientes de log-verosimilitud de los modelos de política y referencia, que se pueden optimizar independientemente de la elección específica de los objetivos de pérdida. En experimentos, instanciamos nuestros PRMs implícitos con varios objetivos y evaluamos su rendimiento en MATH. Mostramos que nuestro PRM implícito supera a un fuerte punto de referencia basado en MCTS al estilo de Math-Shepherd utilizando menos de 1/38 de los datos de entrenamiento. Su rendimiento puede mejorarse aún más con votación mayoritaria. Además, encontramos que aumentar las instrucciones y respuestas beneficia a nuestro PRM implícito, siendo estas últimas las que aportan mayores ganancias. En particular, observamos que nuestro PRM implícito, cuando se instancia con la pérdida de entropía cruzada (CE), es más eficiente en datos y puede seguir mejorando los modelos generativos incluso cuando se entrena con solo una respuesta por instrucción, una configuración que sufre de extrema escasez e desequilibrio de datos. Además, las instrucciones deben ser relevantes para las tareas posteriores, mientras que la diversidad de respuestas no aporta beneficios. Sorprendentemente, el entrenamiento con etiquetas adicionales de pasos de Math-Shepherd no aporta mejoras adicionales a nuestro PRM implícito entrenado solo con datos de resultado. Esperamos que nuestro trabajo fomente una reconsideración de los enfoques de entrenamiento de PRM y contribuya a hacer que el entrenamiento de PRMs sea más accesible.
English
Different from its counterpart outcome reward models (ORMs), which evaluate the entire responses, a process reward model (PRM) scores a reasoning trajectory step by step, providing denser and more fine grained rewards. However, training a PRM requires labels annotated at every intermediate step, presenting significant challenges for both manual and automatic data collection. This paper aims to address this challenge. Both theoretically and empirically, we show that an implicit PRM can be obtained at no additional cost, by simply training an ORM on the cheaper response-level labels. The only assumption is to parameterize the outcome reward as the log-likelihood ratios of the policy and reference models, which can be optimized regardless of the specific choice of loss objectives. In experiments, we instantiate our implicit PRMs with various objectives and evaluate their performance on MATH. We show that our implicit PRM outperforms a strong MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the training data. Its performance can be further improved with majority voting. We further find that scaling up instructions and responses benefits our implicit PRM, and the latter brings a larger gain. Particularly, we find that our implicit PRM, when instantiated with the cross-entropy (CE) loss, is more data-efficient and can keep improving generation models even when trained with only one response per instruction, the setup that suffers from extreme data scarcity and imbalance. Further, instructions should be relevant to downstream tasks while the diversity of responses does not bring gains. Surprisingly, training on extra Math-Shepherd step labels brings no further improvements to our implicit PRM trained on only outcome data. We hope that our work will encourage a rethinking of PRM training approaches and contribute to making training PRMs more accessible.

Summary

AI-Generated Summary

PDF352December 4, 2024