Las lecciones del desarrollo de modelos de recompensa del proceso en el razonamiento matemático.
The Lessons of Developing Process Reward Models in Mathematical Reasoning
January 13, 2025
Autores: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Resumen
Los Modelos de Recompensa de Proceso (PRMs) surgen como un enfoque prometedor para la supervisión de procesos en el razonamiento matemático de Modelos de Lenguaje Grandes (LLMs), que buscan identificar y mitigar errores intermedios en los procesos de razonamiento. Sin embargo, el desarrollo de PRMs efectivos enfrenta desafíos significativos, especialmente en la anotación de datos y metodologías de evaluación. En este documento, a través de experimentos extensos, demostramos que la síntesis de datos basada en estimaciones de Monte Carlo (MC) comúnmente utilizada para PRMs generalmente produce un rendimiento y generalización inferiores en comparación con los métodos LLM-como-juez y de anotación humana. La estimación de MC se basa en modelos de completitud para evaluar la corrección del paso actual, lo que conduce a una verificación inexacta del paso. Además, identificamos posibles sesgos en las estrategias de evaluación convencionales de Mejor-de-N (BoN) para PRMs: (1) Los modelos de política poco confiables generan respuestas con respuestas correctas pero procesos defectuosos, lo que lleva a un desajuste entre los criterios de evaluación de BoN y los objetivos de PRM de verificación de procesos. (2) La tolerancia de los PRMs a tales respuestas conduce a puntajes inflados de BoN. (3) Los PRMs existentes tienen una proporción significativa de puntajes mínimos concentrados en los pasos de respuesta finales, revelando el cambio de una evaluación basada en procesos a una basada en resultados en PRMs Optimizados de BoN. Para abordar estos desafíos, desarrollamos un mecanismo de filtrado de consenso que integra efectivamente la estimación de MC con LLM-como-juez y aboga por un marco de evaluación más completo que combina métricas a nivel de respuesta y de paso. Basándonos en estos mecanismos, mejoramos significativamente tanto el rendimiento del modelo como la eficiencia de los datos en la evaluación de BoN y la tarea de identificación de errores paso a paso. Finalmente, lanzamos un nuevo PRM de vanguardia que supera a las alternativas de código abierto existentes y proporciona pautas prácticas para futuras investigaciones en la construcción de modelos de supervisión de procesos.
English
Process Reward Models (PRMs) emerge as a promising approach for process
supervision in mathematical reasoning of Large Language Models (LLMs), which
aim to identify and mitigate intermediate errors in the reasoning processes.
However, the development of effective PRMs faces significant challenges,
particularly in data annotation and evaluation methodologies. In this paper,
through extensive experiments, we demonstrate that commonly used Monte Carlo
(MC) estimation-based data synthesis for PRMs typically yields inferior
performance and generalization compared to LLM-as-a-judge and human annotation
methods. MC estimation relies on completion models to evaluate current-step
correctness, leading to inaccurate step verification. Furthermore, we identify
potential biases in conventional Best-of-N (BoN) evaluation strategies for
PRMs: (1) The unreliable policy models generate responses with correct answers
but flawed processes, leading to a misalignment between the evaluation criteria
of BoN and the PRM objectives of process verification. (2) The tolerance of
PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a
significant proportion of minimum scores concentrated on the final answer
steps, revealing the shift from process to outcome-based assessment in BoN
Optimized PRMs. To address these challenges, we develop a consensus filtering
mechanism that effectively integrates MC estimation with LLM-as-a-judge and
advocates a more comprehensive evaluation framework that combines
response-level and step-level metrics. Based on the mechanisms, we
significantly improve both model performance and data efficiency in the BoN
evaluation and the step-wise error identification task. Finally, we release a
new state-of-the-art PRM that outperforms existing open-source alternatives and
provides practical guidelines for future research in building process
supervision models.Summary
AI-Generated Summary