ChatPaper.aiChatPaper

Les leçons du développement de modèles de récompense de processus dans le raisonnement mathématique

The Lessons of Developing Process Reward Models in Mathematical Reasoning

January 13, 2025
Auteurs: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Résumé

Les Modèles de Récompense de Processus (PRMs) émergent comme une approche prometteuse pour la supervision des processus dans le raisonnement mathématique des Grands Modèles de Langage (LLMs), qui visent à identifier et à atténuer les erreurs intermédiaires dans les processus de raisonnement. Cependant, le développement de PRMs efficaces est confronté à des défis importants, notamment dans l'annotation des données et les méthodologies d'évaluation. Dans cet article, à travers des expériences approfondies, nous démontrons que la synthèse de données basée sur l'estimation Monte Carlo (MC) couramment utilisée pour les PRMs entraîne généralement des performances et une généralisation inférieures par rapport aux méthodes LLM-comme-juge et à l'annotation humaine. L'estimation MC repose sur des modèles de complétion pour évaluer la correction de l'étape actuelle, ce qui conduit à une vérification inexacte des étapes. De plus, nous identifions des biais potentiels dans les stratégies d'évaluation Best-of-N (BoN) conventionnelles pour les PRMs : (1) Les modèles de politique peu fiables génèrent des réponses avec des réponses correctes mais des processus défectueux, entraînant un désalignement entre les critères d'évaluation de BoN et les objectifs des PRMs de vérification des processus. (2) La tolérance des PRMs à de telles réponses conduit à des scores BoN gonflés. (3) Les PRMs existants ont une proportion significative de scores minimum concentrés sur les étapes de réponse finales, révélant le passage de l'évaluation basée sur le processus à celle basée sur le résultat dans les PRMs Optimisés BoN. Pour relever ces défis, nous développons un mécanisme de filtrage de consensus qui intègre efficacement l'estimation MC avec LLM-comme-juge et préconisons un cadre d'évaluation plus complet qui combine des métriques au niveau de la réponse et de l'étape. Sur la base de ces mécanismes, nous améliorons significativement à la fois les performances du modèle et l'efficacité des données dans l'évaluation BoN et la tâche d'identification des erreurs étape par étape. Enfin, nous publions un nouveau PRM de pointe qui surpasse les alternatives open-source existantes et fournit des lignes directrices pratiques pour les futures recherches dans la construction de modèles de supervision de processus.
English
Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.
PDF998January 14, 2025