ChatPaper.aiChatPaper

ReasonFlux-PRM: Trajektorienbewusste PRMs für langkettiges Denken in großen Sprachmodellen

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

June 23, 2025
Autoren: Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
cs.AI

Zusammenfassung

Process Reward Models (PRMs) haben sich kürzlich als leistungsstarkes Framework zur Überwachung von Zwischenschritten in der Argumentation großer Sprachmodelle (LLMs) etabliert. Bisherige PRMs werden hauptsächlich auf den endgültigen Modellausgaben trainiert und haben Schwierigkeiten, Zwischendenkpfade robust zu bewerten, insbesondere in dem aufkommenden Kontext von Trajektorie-Antwort-Ausgaben, die von fortschrittlichen Reasoning-Modellen wie Deepseek-R1 generiert werden. In dieser Arbeit stellen wir ReasonFlux-PRM vor, ein neuartiges, trajektoriebewusstes PRM, das speziell zur Bewertung von Trajektorie-Antwort-artigen Reasoning-Spuren entwickelt wurde. ReasonFlux-PRM integriert sowohl schrittweise als auch trajektoriebezogene Überwachung, wodurch eine fein abgestufte Belohnungszuweisung ermöglicht wird, die mit strukturierten Chain-of-Thought-Daten abgestimmt ist. Wir passen ReasonFlux-PRM an, um Belohnungsüberwachung sowohl in Offline- als auch Online-Szenarien zu unterstützen, einschließlich (i) der Auswahl hochwertiger Modell-Distillationsdaten für das nachgelagerte Supervised Fine-Tuning kleinerer Modelle, (ii) der Bereitstellung dichter prozessbezogener Belohnungen für die Policy-Optimierung während des Reinforcement Learning und (iii) der Ermöglichung von belohnungsgesteuertem Best-of-N-Test-Time-Scaling. Empirische Ergebnisse auf anspruchsvollen nachgelagerten Benchmarks wie AIME, MATH500 und GPQA-Diamond zeigen, dass ReasonFlux-PRM-7B qualitativ hochwertigere Daten auswählt als starke PRMs (z. B. Qwen2.5-Math-PRM-72B) und von Menschen kuratierte Baselines. Darüber hinaus erzielt unser abgeleitetes ReasonFlux-PRM-7B konsistente Leistungsverbesserungen, mit durchschnittlichen Steigerungen von 12,1 % beim Supervised Fine-Tuning, 4,5 % beim Reinforcement Learning und 6,3 % beim Test-Time-Scaling. Wir veröffentlichen auch unser effizientes ReasonFlux-PRM-1.5B für ressourcenbeschränkte Anwendungen und Edge-Deployment. Projekte: https://github.com/Gen-Verse/ReasonFlux
English
Process Reward Models (PRMs) have recently emerged as a powerful framework for supervising intermediate reasoning steps in large language models (LLMs). Previous PRMs are primarily trained on model final output responses and struggle to evaluate intermediate thinking trajectories robustly, especially in the emerging setting of trajectory-response outputs generated by frontier reasoning models like Deepseek-R1. In this work, we introduce ReasonFlux-PRM, a novel trajectory-aware PRM explicitly designed to evaluate the trajectory-response type of reasoning traces. ReasonFlux-PRM incorporates both step-level and trajectory-level supervision, enabling fine-grained reward assignment aligned with structured chain-of-thought data. We adapt ReasonFlux-PRM to support reward supervision under both offline and online settings, including (i) selecting high-quality model distillation data for downstream supervised fine-tuning of smaller models, (ii) providing dense process-level rewards for policy optimization during reinforcement learning, and (iii) enabling reward-guided Best-of-N test-time scaling. Empirical results on challenging downstream benchmarks such as AIME, MATH500, and GPQA-Diamond demonstrate that ReasonFlux-PRM-7B selects higher quality data than strong PRMs (e.g., Qwen2.5-Math-PRM-72B) and human-curated baselines. Furthermore, our derived ReasonFlux-PRM-7B yields consistent performance improvements, achieving average gains of 12.1% in supervised fine-tuning, 4.5% in reinforcement learning, and 6.3% in test-time scaling. We also release our efficient ReasonFlux-PRM-1.5B for resource-constrained applications and edge deployment. Projects: https://github.com/Gen-Verse/ReasonFlux
PDF251June 24, 2025