ReasonFlux-PRM: PRMs Conscientes de la Trayectoria para Razonamiento de Cadenas de Pensamiento Extensas en LLMs
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
Autores: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
Resumen
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido recientemente como un marco poderoso para supervisar los pasos intermedios de razonamiento en modelos de lenguaje de gran escala (LLMs). Los PRMs anteriores se entrenan principalmente en las respuestas finales del modelo y tienen dificultades para evaluar de manera robusta las trayectorias de pensamiento intermedias, especialmente en el contexto emergente de salidas de trayectoria-respuesta generadas por modelos de razonamiento de vanguardia como Deepseek-R1. En este trabajo, presentamos ReasonFlux-PRM, un PRM novedoso y consciente de la trayectoria, diseñado explícitamente para evaluar el tipo de trazas de razonamiento de trayectoria-respuesta. ReasonFlux-PRM incorpora supervisión tanto a nivel de paso como de trayectoria, permitiendo la asignación de recompensas de grano fino alineadas con datos estructurados de cadena de pensamiento. Adaptamos ReasonFlux-PRM para admitir supervisión de recompensas en entornos tanto fuera de línea como en línea, incluyendo (i) la selección de datos de alta calidad para la destilación de modelos en el ajuste fino supervisado de modelos más pequeños, (ii) la provisión de recompensas densas a nivel de proceso para la optimización de políticas durante el aprendizaje por refuerzo, y (iii) la habilitación de escalado en tiempo de prueba guiado por recompensas Best-of-N. Los resultados empíricos en benchmarks desafiantes como AIME, MATH500 y GPQA-Diamond demuestran que ReasonFlux-PRM-7B selecciona datos de mayor calidad que PRMs potentes (por ejemplo, Qwen2.5-Math-PRM-72B) y líneas base curadas por humanos. Además, nuestro ReasonFlux-PRM-7B derivado produce mejoras consistentes en el rendimiento, logrando ganancias promedio del 12.1% en ajuste fino supervisado, 4.5% en aprendizaje por refuerzo y 6.3% en escalado en tiempo de prueba. También lanzamos nuestro eficiente ReasonFlux-PRM-1.5B para aplicaciones con recursos limitados y despliegue en el borde. Proyectos: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux