ReasonFlux-PRM: Траекторно-ориентированные PRM для длинных цепочек рассуждений в крупных языковых моделях
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
Авторы: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
Аннотация
Модели вознаграждения процессов (Process Reward Models, PRMs) недавно появились как мощный фреймворк для контроля промежуточных шагов рассуждений в больших языковых моделях (LLMs). Предыдущие PRM в основном обучались на финальных выходных данных моделей и испытывали трудности с надежной оценкой промежуточных траекторий мышления, особенно в контексте траекторно-ответных выходных данных, генерируемых передовыми моделями рассуждений, такими как Deepseek-R1. В данной работе мы представляем ReasonFlux-PRM — новую траекторно-ориентированную PRM, специально разработанную для оценки траекторно-ответного типа следов рассуждений. ReasonFlux-PRM включает как пошаговый, так и траекторный контроль, позволяя точное назначение вознаграждений, согласованное с структурированными данными цепочки рассуждений. Мы адаптировали ReasonFlux-PRM для поддержки контроля вознаграждений как в оффлайн, так и в онлайн режимах, включая (i) выбор высококачественных данных для дистилляции моделей для последующего контролируемого тонкого обучения меньших моделей, (ii) предоставление плотных вознаграждений на уровне процесса для оптимизации политик в ходе обучения с подкреплением и (iii) включение вознаграждений для масштабирования Best-of-N на этапе тестирования. Эмпирические результаты на сложных тестовых наборах, таких как AIME, MATH500 и GPQA-Diamond, демонстрируют, что ReasonFlux-PRM-7B выбирает данные более высокого качества, чем сильные PRM (например, Qwen2.5-Math-PRM-72B) и базовые линии, составленные вручную. Кроме того, наша модель ReasonFlux-PRM-7B обеспечивает стабильное улучшение производительности, достигая среднего прироста в 12,1% при контролируемом тонком обучении, 4,5% при обучении с подкреплением и 6,3% при масштабировании на этапе тестирования. Мы также выпускаем нашу эффективную модель ReasonFlux-PRM-1.5B для ресурсо-ограниченных приложений и развертывания на периферийных устройствах. Проекты: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux