GenPRM : Mise à l'échelle du calcul en temps de test des modèles de récompense de processus via un raisonnement génératif

papers.abstract

Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont montré qu'il est prometteur d'utiliser des modèles de récompense de processus (PRMs) comme vérificateurs pour améliorer les performances des LLMs. Cependant, les PRMs actuels rencontrent trois défis majeurs : (1) une supervision et des capacités de généralisation limitées du processus, (2) une dépendance à la prédiction de valeurs scalaires sans exploiter les capacités génératives des LLMs, et (3) une incapacité à augmenter la puissance de calcul au moment des tests des PRMs. Dans ce travail, nous introduisons GenPRM, un modèle de récompense de processus génératif qui effectue un raisonnement explicite en chaîne de pensée (CoT) avec vérification de code avant de fournir un jugement pour chaque étape de raisonnement. Pour obtenir des étiquettes de supervision de processus et des données de justification de haute qualité, nous proposons l'estimation relative de progression (RPE) et un cadre de synthèse de justification qui intègre la vérification de code. Les résultats expérimentaux sur ProcessBench et plusieurs tâches de raisonnement mathématique montrent que GenPRM surpasse significativement les PRMs précédents avec seulement 23K données d'entraînement provenant du jeu de données MATH. Grâce à l'augmentation de la puissance de calcul au moment des tests, un GenPRM de 1,5B surpasse GPT-4o, et un GenPRM de 7B dépasse Qwen2.5-Math-PRM-72B sur ProcessBench. De plus, GenPRM démontre de solides capacités à servir de modèle critique pour l'affinement des modèles de politique. Ce travail établit un nouveau paradigme pour la supervision de processus qui comble le fossé entre les PRMs et les modèles critiques dans les LLMs. Notre code, modèle et données seront disponibles sur https://ryanliu112.github.io/GenPRM.

English

Recent advancements in Large Language Models (LLMs) have shown that it is promising to utilize Process Reward Models (PRMs) as verifiers to enhance the performance of LLMs. However, current PRMs face three key challenges: (1) limited process supervision and generalization capabilities, (2) dependence on scalar value prediction without leveraging the generative abilities of LLMs, and (3) inability to scale the test-time compute of PRMs. In this work, we introduce GenPRM, a generative process reward model that performs explicit Chain-of-Thought (CoT) reasoning with code verification before providing judgment for each reasoning step. To obtain high-quality process supervision labels and rationale data, we propose Relative Progress Estimation (RPE) and a rationale synthesis framework that incorporates code verification. Experimental results on ProcessBench and several mathematical reasoning tasks show that GenPRM significantly outperforms prior PRMs with only 23K training data from MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally, GenPRM demonstrates strong abilities to serve as a critic model for policy model refinement. This work establishes a new paradigm for process supervision that bridges the gap between PRMs and critic models in LLMs. Our code, model, and data will be available in https://ryanliu112.github.io/GenPRM.

GenPRM : Mise à l'échelle du calcul en temps de test des modèles de récompense de processus via un raisonnement génératif

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

papers.abstract

Support