Nemotron-Cascade: 汎用推論モデルのための段階的強化学習のスケーリング
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models
December 15, 2025
著者: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
要旨
強化学習(RL)を用いた汎用推論モデルの構築には、推論時の応答長や検証遅延の大きなばらつきなど、領域横断的な異質性が伴う。このような変動性はRLインフラを複雑にし、訓練を遅延させ、訓練カリキュラム(例:応答長の拡張)やハイパーパラメータ選択を困難にする。本研究では、カスケード型領域別強化学習(Cascade RL)を提案し、指示モードと深い思考モードの両方で動作可能な汎用推論モデルNemotron-Cascadeを開発する。異なる領域からの異質なプロンプトを混在させる従来手法と異なり、Cascade RLは領域別の逐次的なRLを調整し、エンジニアリングの複雑さを軽減し、幅広いベンチマークで最先端の性能を実現する。特に、アライメントのためのRLHFは事前ステップとして用いると、単なる選好最適化を超えてモデルの推論能力を大幅に向上させ、後続の領域別RLVF段階では、先行領域で達成されたベンチマーク性能が低下することは稀であり、むしろ改善される場合さえある(図1参照)。RL後の14Bモデルは、LiveCodeBench v5/v6/ProにおいてそのSFT教師モデルであるDeepSeek-R1-0528を上回り、2025年国際情報オリンピック(IOI)で銀メダル相当の性能を達成した。我々は訓練とデータのレシピを公開する。
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.