ReasonFlux-PRM: PRM consapevoli della traiettoria per ragionamenti a lunga catena di pensiero nei LLM
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
Autori: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
Abstract
I modelli di ricompensa basati sul processo (PRM) sono emersi recentemente come un potente framework per supervisionare i passaggi intermedi del ragionamento nei grandi modelli linguistici (LLM). I PRM precedenti sono principalmente addestrati sulle risposte finali del modello e faticano a valutare in modo robusto le traiettorie di pensiero intermedie, specialmente nel contesto emergente delle uscite di tipo traiettoria-risposta generate da modelli di ragionamento all'avanguardia come Deepseek-R1. In questo lavoro, introduciamo ReasonFlux-PRM, un nuovo PRM consapevole della traiettoria, progettato esplicitamente per valutare le tracce di ragionamento di tipo traiettoria-risposta. ReasonFlux-PRM incorpora sia la supervisione a livello di passaggio che a livello di traiettoria, consentendo l'assegnazione di ricompense granulari allineate con dati strutturati di catena di pensiero. Adattiamo ReasonFlux-PRM per supportare la supervisione delle ricompense sia in contesti offline che online, inclusi (i) la selezione di dati di distillazione di alta qualità per il fine-tuning supervisionato di modelli più piccoli, (ii) la fornitura di ricompense dense a livello di processo per l'ottimizzazione delle politiche durante l'apprendimento per rinforzo, e (iii) l'abilitazione del ridimensionamento Best-of-N guidato dalla ricompensa al momento del test. I risultati empirici su benchmark impegnativi come AIME, MATH500 e GPQA-Diamond dimostrano che ReasonFlux-PRM-7B seleziona dati di qualità superiore rispetto a PRM forti (ad esempio, Qwen2.5-Math-PRM-72B) e baseline curate da esseri umani. Inoltre, il nostro ReasonFlux-PRM-7B derivato produce miglioramenti consistenti nelle prestazioni, raggiungendo guadagni medi del 12,1% nel fine-tuning supervisionato, del 4,5% nell'apprendimento per rinforzo e del 6,3% nel ridimensionamento al momento del test. Rilasciamo anche il nostro efficiente ReasonFlux-PRM-1.5B per applicazioni con risorse limitate e implementazioni edge. Progetti: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux