ReasonFlux-PRM : PRMs conscients des trajectoires pour le raisonnement en chaînes de pensées longues dans les LLMs
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
Auteurs: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
Résumé
Les modèles de récompense de processus (PRM) ont récemment émergé comme un cadre puissant pour superviser les étapes de raisonnement intermédiaires dans les grands modèles de langage (LLM). Les PRM précédents sont principalement entraînés sur les réponses finales des modèles et peinent à évaluer de manière robuste les trajectoires de pensée intermédiaires, en particulier dans le contexte émergent des sorties de type trajectoire-réponse générées par des modèles de raisonnement de pointe comme Deepseek-R1. Dans ce travail, nous présentons ReasonFlux-PRM, un PRM novateur conscient des trajectoires, explicitement conçu pour évaluer les traces de raisonnement de type trajectoire-réponse. ReasonFlux-PRM intègre une supervision à la fois au niveau des étapes et des trajectoires, permettant une attribution fine des récompenses alignée sur des données structurées de chaîne de pensée. Nous adaptons ReasonFlux-PRM pour supporter la supervision des récompenses dans des contextes hors ligne et en ligne, incluant (i) la sélection de données de haute qualité pour la distillation de modèles en vue d'un réglage fin supervisé de modèles plus petits, (ii) la fourniture de récompenses denses au niveau du processus pour l'optimisation des politiques lors de l'apprentissage par renforcement, et (iii) l'activation d'une mise à l'échelle guidée par récompense au moment du test (Best-of-N). Les résultats empiriques sur des benchmarks exigeants tels que AIME, MATH500 et GPQA-Diamond montrent que ReasonFlux-PRM-7B sélectionne des données de qualité supérieure par rapport à des PRM puissants (par exemple, Qwen2.5-Math-PRM-72B) et à des bases de référence établies par des humains. De plus, notre ReasonFlux-PRM-7B dérivé apporte des améliorations de performance constantes, avec des gains moyens de 12,1 % en réglage fin supervisé, 4,5 % en apprentissage par renforcement et 6,3 % en mise à l'échelle au moment du test. Nous publions également notre ReasonFlux-PRM-1.5B efficace pour les applications à ressources limitées et le déploiement en périphérie. Projets : https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux