GenPRM : Mise à l'échelle du calcul en temps de test des modèles de récompense de processus via un raisonnement génératif
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
April 1, 2025
Auteurs: Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou
cs.AI
Résumé
Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont montré qu'il est prometteur d'utiliser des modèles de récompense de processus (PRMs) comme vérificateurs pour améliorer les performances des LLMs. Cependant, les PRMs actuels rencontrent trois défis majeurs : (1) une supervision et des capacités de généralisation limitées du processus, (2) une dépendance à la prédiction de valeurs scalaires sans exploiter les capacités génératives des LLMs, et (3) une incapacité à augmenter la puissance de calcul au moment des tests des PRMs. Dans ce travail, nous introduisons GenPRM, un modèle de récompense de processus génératif qui effectue un raisonnement explicite en chaîne de pensée (CoT) avec vérification de code avant de fournir un jugement pour chaque étape de raisonnement. Pour obtenir des étiquettes de supervision de processus et des données de justification de haute qualité, nous proposons l'estimation relative de progression (RPE) et un cadre de synthèse de justification qui intègre la vérification de code. Les résultats expérimentaux sur ProcessBench et plusieurs tâches de raisonnement mathématique montrent que GenPRM surpasse significativement les PRMs précédents avec seulement 23K données d'entraînement provenant du jeu de données MATH. Grâce à l'augmentation de la puissance de calcul au moment des tests, un GenPRM de 1,5B surpasse GPT-4o, et un GenPRM de 7B dépasse Qwen2.5-Math-PRM-72B sur ProcessBench. De plus, GenPRM démontre de solides capacités à servir de modèle critique pour l'affinement des modèles de politique. Ce travail établit un nouveau paradigme pour la supervision de processus qui comble le fossé entre les PRMs et les modèles critiques dans les LLMs. Notre code, modèle et données seront disponibles sur https://ryanliu112.github.io/GenPRM.
English
Recent advancements in Large Language Models (LLMs) have shown that it is
promising to utilize Process Reward Models (PRMs) as verifiers to enhance the
performance of LLMs. However, current PRMs face three key challenges: (1)
limited process supervision and generalization capabilities, (2) dependence on
scalar value prediction without leveraging the generative abilities of LLMs,
and (3) inability to scale the test-time compute of PRMs. In this work, we
introduce GenPRM, a generative process reward model that performs explicit
Chain-of-Thought (CoT) reasoning with code verification before providing
judgment for each reasoning step. To obtain high-quality process supervision
labels and rationale data, we propose Relative Progress Estimation (RPE) and a
rationale synthesis framework that incorporates code verification. Experimental
results on ProcessBench and several mathematical reasoning tasks show that
GenPRM significantly outperforms prior PRMs with only 23K training data from
MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and
a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally,
GenPRM demonstrates strong abilities to serve as a critic model for policy
model refinement. This work establishes a new paradigm for process supervision
that bridges the gap between PRMs and critic models in LLMs. Our code, model,
and data will be available in https://ryanliu112.github.io/GenPRM.Summary
AI-Generated Summary