ReasonFlux-PRM: Trajectoriebewuste PRM's voor Lange Ketens van Denken in LLM's
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
Auteurs: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
Samenvatting
Process Reward Models (PRMs) zijn recent naar voren gekomen als een krachtig raamwerk voor het toezicht houden op tussenliggende redeneerstappen in grote taalmodellen (LLMs). Eerdere PRMs worden voornamelijk getraind op de uiteindelijke uitvoerresponsen van modellen en hebben moeite om tussenliggende denkprocessen robuust te evalueren, vooral in de opkomende context van traject-responsuitvoer gegenereerd door geavanceerde redeneermodellen zoals Deepseek-R1. In dit werk introduceren we ReasonFlux-PRM, een nieuw trajectbewust PRM dat expliciet is ontworpen om het traject-respons type van redeneersporen te evalueren. ReasonFlux-PRM integreert zowel stapniveau- als trajectniveau-toezicht, waardoor fijnmazige beloningstoewijzing mogelijk wordt die is afgestemd op gestructureerde keten-van-gedachte data. We passen ReasonFlux-PRM aan om beloningstoezicht te ondersteunen in zowel offline als online settings, inclusief (i) het selecteren van hoogwaardige modeldistillatiedata voor downstream supervised fine-tuning van kleinere modellen, (ii) het bieden van dichte procesniveau-beloningen voor beleidsoptimalisatie tijdens reinforcement learning, en (iii) het mogelijk maken van beloning-gestuurde Best-of-N test-time scaling. Empirische resultaten op uitdagende downstream benchmarks zoals AIME, MATH500 en GPQA-Diamond tonen aan dat ReasonFlux-PRM-7B hogere kwaliteit data selecteert dan sterke PRMs (bijv. Qwen2.5-Math-PRM-72B) en door mensen samengestelde baselines. Bovendien levert ons afgeleide ReasonFlux-PRM-7B consistente prestatieverbeteringen op, met gemiddelde winsten van 12,1% in supervised fine-tuning, 4,5% in reinforcement learning en 6,3% in test-time scaling. We brengen ook onze efficiënte ReasonFlux-PRM-1.5B uit voor toepassingen met beperkte middelen en edge-implementatie. Projecten: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux