ReasonFlux-PRM: 장기 사고 사슬 추론을 위한 궤적 인식 PRM 및 대형 언어 모델
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
저자: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
초록
프로세스 보상 모델(Process Reward Models, PRMs)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 중간 추론 단계를 감독하기 위한 강력한 프레임워크로 부상하고 있다. 기존 PRMs는 주로 모델의 최종 출력 응답에 대해 훈련되었으며, 특히 Deepseek-R1과 같은 최신 추론 모델에서 생성되는 궤적-응답 출력과 같은 새로운 설정에서 중간 사고 궤적을 견고하게 평가하는 데 어려움을 겪었다. 본 연구에서는 궤적-응답 유형의 추론 흔적을 평가하기 위해 명시적으로 설계된 새로운 궤적 인식 PRM인 ReasonFlux-PRM을 소개한다. ReasonFlux-PRM은 단계별 및 궤적별 감독을 통합하여 구조화된 사고의 연쇄 데이터와 일치하는 세밀한 보상 할당을 가능하게 한다. 우리는 ReasonFlux-PRM을 오프라인 및 온라인 설정 모두에서 보상 감독을 지원하도록 적응시켰으며, 이는 (i) 더 작은 모델의 지도 미세 조정을 위한 고품질 모델 증류 데이터 선택, (ii) 강화 학습 중 정책 최적화를 위한 밀집 프로세스 수준 보상 제공, (iii) 보안 Best-of-N 테스트 시간 스케일링을 가능하게 하는 것을 포함한다. AIME, MATH500, GPQA-Diamond와 같은 도전적인 하위 벤치마크에서의 실험 결과는 ReasonFlux-PRM-7B가 강력한 PRMs(예: Qwen2.5-Math-PRM-72B) 및 인간이 선별한 기준선보다 더 높은 품질의 데이터를 선택함을 보여준다. 또한, 우리가 도출한 ReasonFlux-PRM-7B는 일관된 성능 향상을 달성하며, 지도 미세 조정에서 평균 12.1%, 강화 학습에서 4.5%, 테스트 시간 스케일링에서 6.3%의 이득을 얻었다. 우리는 또한 자원이 제한된 애플리케이션 및 에지 배포를 위한 효율적인 ReasonFlux-PRM-1.5B를 공개한다. 프로젝트: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux