ReasonFlux-PRM: PRMs Conscientes de Trajetória para Raciocínio de Longa Cadeia de Pensamento em LLMs
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
June 23, 2025
Autores: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI
Resumo
Os Modelos de Recompensa de Processo (PRMs, na sigla em inglês) surgiram recentemente como uma estrutura poderosa para supervisionar etapas intermediárias de raciocínio em modelos de linguagem de grande escala (LLMs). PRMs anteriores são treinados principalmente nas respostas finais dos modelos e têm dificuldade em avaliar de forma robusta as trajetórias de pensamento intermediárias, especialmente no cenário emergente de saídas do tipo trajetória-resposta geradas por modelos de raciocínio de ponta, como o Deepseek-R1. Neste trabalho, apresentamos o ReasonFlux-PRM, um PRM inovador e consciente da trajetória, projetado explicitamente para avaliar o tipo de rastreamento de raciocínio trajetória-resposta. O ReasonFlux-PRM incorpora supervisão tanto em nível de etapa quanto em nível de trajetória, permitindo a atribuição de recompensas refinadas alinhadas com dados estruturados de cadeia de pensamento. Adaptamos o ReasonFlux-PRM para suportar supervisão de recompensa em cenários offline e online, incluindo (i) seleção de dados de alta qualidade para destilação de modelos para ajuste fino supervisionado de modelos menores, (ii) fornecimento de recompensas densas em nível de processo para otimização de políticas durante o aprendizado por reforço, e (iii) habilitação de escalonamento guiado por recompensa no teste Best-of-N. Resultados empíricos em benchmarks desafiadores, como AIME, MATH500 e GPQA-Diamond, demonstram que o ReasonFlux-PRM-7B seleciona dados de qualidade superior em comparação com PRMs robustos (por exemplo, Qwen2.5-Math-PRM-72B) e baselines curados por humanos. Além disso, nosso ReasonFlux-PRM-7B derivado proporciona melhorias consistentes de desempenho, alcançando ganhos médios de 12,1% no ajuste fino supervisionado, 4,5% no aprendizado por reforço e 6,3% no escalonamento em tempo de teste. Também lançamos nosso eficiente ReasonFlux-PRM-1.5B para aplicações com recursos limitados e implantação em dispositivos de borda. Projetos: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for supervising intermediate reasoning steps in large language models (LLMs).
Previous PRMs are primarily trained on model final output responses and
struggle to evaluate intermediate thinking trajectories robustly, especially in
the emerging setting of trajectory-response outputs generated by frontier
reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a
novel trajectory-aware PRM explicitly designed to evaluate the
trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both
step-level and trajectory-level supervision, enabling fine-grained reward
assignment aligned with structured chain-of-thought data. We adapt
ReasonFlux-PRM to support reward supervision under both offline and online
settings, including (i) selecting high-quality model distillation data for
downstream supervised fine-tuning of smaller models, (ii) providing dense
process-level rewards for policy optimization during reinforcement learning,
and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results
on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond
demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs
(e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our
derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving
average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement
learning, and 6.3% in test-time scaling. We also release our efficient
ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment.
Projects: https://github.com/Gen-Verse/ReasonFlux